AI产业链地图·知识库 模型部署 · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/模型部署

更新 2026·06·17

概念技术 / 术语

模型部署

Model Deployment · Model Serving · 模型服务 · A-B 测试 · A/B Test

2. 冷启动 — 模型加载慢、首请求延迟高 3. 多模型版本管理 — 与模型版本控制紧密耦合 4. 资源调度 — GPU 利用率、自动扩缩容 5. 回滚 & 灾备 — 新版翻车 30 秒回滚

模型部署 CONCEPT · 概念

首次提出: 2017
关键参与方: [[BentoML]] · [[Seldon]] · [[KServe]] · [[NVIDIA Triton]]
反向引用: 5 处 · 来自 4 页

归属 MLOps模型部署推理第三层

模型部署（Model Deployment）/ A-B 测试

把训练好的模型推到 生产环境 提供推理服务，并通过 A/B / 蓝绿 / 金丝雀 等流量分配策略，在不影响用户的前提下验证新版优劣 — MLOps 从"训练"走向"业务价值"的最后一公里。

部署模式

模式	描述	适用
批量（Batch）	离线大批数据 → 模型 → 落库	推荐排行、风控评分日表
在线（Online API）	REST / gRPC 同步调用	实时推荐、搜索、Agent
流式（Streaming）	Kafka / Flink 流上推理	风控、监控告警
边缘（Edge）	部署到终端设备	IoT、汽车、手机
嵌入式（Embedded）	内嵌到应用	离线翻译、相机美颜

部署策略（流量切换）

策略	描述	风险
A/B 测试	流量按比例分给新旧版，统计学对比指标	低，标准做法
蓝绿（Blue-Green）	同时部署两套，切流一次性	资源 2×
金丝雀（Canary）	新版先承接 1-5% 流量，逐步放大	渐进控风险
影子（Shadow）	新版与旧版并行执行，不影响真实输出	仅观测，无影响
多臂老虎机（Bandit）	算法自适应分配	复杂，效果导向

主流部署工具

通用模型服务

BentoML — 开源 + 商业，模型打包 + 服务化
Seldon Core — Kubernetes 原生模型服务
KServe（前 KFServing） — Kubeflow 模型服务
Ray Serve — Anyscale，分布式推理
MLflow Model Serving — MLflow 内置

高性能推理引擎

NVIDIA Triton Inference Server — GPU 高吞吐
TensorRT-LLM — NVIDIA LLM 优化（隶属 4-04）
vLLM / SGLang / TGI — LLM 推理框架
ONNX Runtime — 跨硬件推理（隶属 4-04）

云厂商一站式

AWS SageMaker Endpoints
Vertex AI Endpoints
Azure ML Online Endpoints
Databricks Model Serving

中国玩家

第四范式 先知 AI 平台内置模型服务
星环科技 Sophon Edge
百度 BML / 阿里云 PAI EAS / 腾讯 TI-EMS

A/B 测试的关键指标

业务指标：转化率、CTR、GMV、留存
模型指标：准确率、F1（与训练集对齐验证）
系统指标：P99 延迟、QPS、错误率
成本指标：单请求 GPU 成本、内存占用

常见挑战

训推不一致（Training-Serving Skew） — 特征工程在训练 / 推理两处不一致
冷启动 — 模型加载慢、首请求延迟高
多模型版本管理 — 与模型版本控制紧密耦合
资源调度 — GPU 利用率、自动扩缩容
回滚 & 灾备 — 新版翻车 30 秒回滚

LLM 时代的特殊性

LLM 单实例可服务百万 / 千万用户 → 调度复杂度爆炸
推理成本高 → 优化（PagedAttention、连续批处理、量化）至关重要
多模型路由（小模型先答，大模型回退） → 与 LLMOps / AgentOps 融合

相关

MLOps / 模型版本控制 / 数据漂移检测
4-04-模型部署与优化（深度优化在该子行业）

∈ belongs_to::3-07-AI原生中间件与开发平台

反向引用链接到本页

反向引用 5

按引用量 ↓

… 3. **MLOps 工作流**：[[实验管理]] / [[超参数追踪]] / [[模型版本控制]] / [[特征工程]] 4. **模型部署**：[[ONNX]] / [[TensorRT]] / A-B 测试 / [[蓝绿部署]] 5. **模型监控**：[[数据漂移检测]] / [[推理延迟监控]] / [[模型性能退化告警]] 6. **算力调度**：[[算力网络]] / [[异构算力池化]] / [[全国一体化算力服务]] / [[断点续 …

… 3. **MLOps 工作流**：[[实验管理]] / [[超参数追踪]] / [[模型版本控制]] / [[特征工程]] 4. **模型部署**：[[ONNX]] / [[TensorRT]] / [[A-B 测试]] / 蓝绿部署5. **模型监控**：[[数据漂移检测]] / [[推理延迟监控]] / [[模型性能退化告警]] 6. **算力调度**：[[算力网络]] / [[异构算力池化]] / [[全国一体化算力服务]] / [[断点续训]] …

查看原文 →

… ## 相关 - [[LLMOps]] / [[AgentOps]]（演进版本） - [[特征工程]] / [[模型版本控制]] / [[数据漂移检测]] / 模型部署- [[Weights & Biases]] / [[Databricks]] / [[第四范式]] ∈ belongs_to::[[3-07-AI原生中间件与开发平台]] …

查看原文 →

… - **2025** Datadog AI Monitoring → 综合可观测性厂商入局 ## 相关 - [[MLOps]] / [[LLMOps]] / [[AgentOps]] - 模型部署 / [[模型版本控制]] - [[Datadog]] ∈ belongs_to::[[3-07-AI原生中间件与开发平台]] …

查看原文 →

… - **2024-25** LLM 时代，Model Registry 扩展支持 **提示词版本 / RAG 知识库版本 / Agent 版本** ## 相关 - [[MLOps]] / [[特征工程]] / 模型部署- [[Weights & Biases]] / [[Hugging Face]] / [[Databricks]] ∈ belongs_to::[[3-07-AI原生中间件与开发平台]] …

查看原文 →