AI产业链地图·知识库 模型部署 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/模型部署
更新 2026·06·17
概念 技术 / 术语

模型部署

Model Deployment · Model Serving · 模型服务 · A-B 测试 · A/B Test

2. 冷启动 — 模型加载慢、首请求延迟高 3. 多模型版本管理 — 与 模型版本控制 紧密耦合 4. 资源调度 — GPU 利用率、自动扩缩容 5. 回滚 & 灾备 — 新版翻车 30 秒回滚

模型部署 CONCEPT · 概念
首次提出
2017
关键参与方
[[BentoML]] · [[Seldon]] · [[KServe]] · [[NVIDIA Triton]]
反向引用
5 处 · 来自 4
归属 MLOps模型部署推理第三层

模型部署(Model Deployment)/ A-B 测试

把训练好的模型推到 生产环境 提供推理服务,并通过 A/B / 蓝绿 / 金丝雀 等流量分配策略,在不影响用户的前提下验证新版优劣 — MLOps 从"训练"走向"业务价值"的最后一公里。

部署模式

模式 描述 适用
批量(Batch) 离线大批数据 → 模型 → 落库 推荐排行、风控评分日表
在线(Online API) REST / gRPC 同步调用 实时推荐、搜索、Agent
流式(Streaming) Kafka / Flink 流上推理 风控、监控告警
边缘(Edge) 部署到终端设备 IoT、汽车、手机
嵌入式(Embedded) 内嵌到应用 离线翻译、相机美颜

部署策略(流量切换)

策略 描述 风险
A/B 测试 流量按比例分给新旧版,统计学对比指标 低,标准做法
蓝绿(Blue-Green) 同时部署两套,切流一次性 资源 2×
金丝雀(Canary) 新版先承接 1-5% 流量,逐步放大 渐进控风险
影子(Shadow) 新版与旧版并行执行,不影响真实输出 仅观测,无影响
多臂老虎机(Bandit) 算法自适应分配 复杂,效果导向

主流部署工具

通用模型服务

  • BentoML — 开源 + 商业,模型打包 + 服务化
  • Seldon Core — Kubernetes 原生模型服务
  • KServe(前 KFServing) — Kubeflow 模型服务
  • Ray Serve — Anyscale,分布式推理
  • MLflow Model Serving — MLflow 内置

高性能推理引擎

  • NVIDIA Triton Inference Server — GPU 高吞吐
  • TensorRT-LLM — NVIDIA LLM 优化(隶属 4-04)
  • vLLM / SGLang / TGI — LLM 推理框架
  • ONNX Runtime — 跨硬件推理(隶属 4-04)

云厂商一站式

  • AWS SageMaker Endpoints
  • Vertex AI Endpoints
  • Azure ML Online Endpoints
  • Databricks Model Serving

中国玩家

A/B 测试的关键指标

  • 业务指标:转化率、CTR、GMV、留存
  • 模型指标:准确率、F1(与训练集对齐验证)
  • 系统指标:P99 延迟、QPS、错误率
  • 成本指标:单请求 GPU 成本、内存占用

常见挑战

  1. 训推不一致(Training-Serving Skew) — 特征工程在训练 / 推理两处不一致
  2. 冷启动 — 模型加载慢、首请求延迟高
  3. 多模型版本管理 — 与 模型版本控制 紧密耦合
  4. 资源调度 — GPU 利用率、自动扩缩容
  5. 回滚 & 灾备 — 新版翻车 30 秒回滚

LLM 时代的特殊性

  • LLM 单实例可服务百万 / 千万用户 → 调度复杂度爆炸
  • 推理成本高 → 优化(PagedAttention、连续批处理、量化)至关重要
  • 多模型路由(小模型先答,大模型回退) → 与 LLMOps / AgentOps 融合

相关

∈ belongs_to::3-07-AI原生中间件与开发平台