模型部署(Model Deployment)/ A-B 测试
把训练好的模型推到 生产环境 提供推理服务,并通过 A/B / 蓝绿 / 金丝雀 等流量分配策略,在不影响用户的前提下验证新版优劣 — MLOps 从"训练"走向"业务价值"的最后一公里。
部署模式
| 模式 | 描述 | 适用 |
|---|---|---|
| 批量(Batch) | 离线大批数据 → 模型 → 落库 | 推荐排行、风控评分日表 |
| 在线(Online API) | REST / gRPC 同步调用 | 实时推荐、搜索、Agent |
| 流式(Streaming) | Kafka / Flink 流上推理 | 风控、监控告警 |
| 边缘(Edge) | 部署到终端设备 | IoT、汽车、手机 |
| 嵌入式(Embedded) | 内嵌到应用 | 离线翻译、相机美颜 |
部署策略(流量切换)
| 策略 | 描述 | 风险 |
|---|---|---|
| A/B 测试 | 流量按比例分给新旧版,统计学对比指标 | 低,标准做法 |
| 蓝绿(Blue-Green) | 同时部署两套,切流一次性 | 资源 2× |
| 金丝雀(Canary) | 新版先承接 1-5% 流量,逐步放大 | 渐进控风险 |
| 影子(Shadow) | 新版与旧版并行执行,不影响真实输出 | 仅观测,无影响 |
| 多臂老虎机(Bandit) | 算法自适应分配 | 复杂,效果导向 |
主流部署工具
通用模型服务
- BentoML — 开源 + 商业,模型打包 + 服务化
- Seldon Core — Kubernetes 原生模型服务
- KServe(前 KFServing) — Kubeflow 模型服务
- Ray Serve — Anyscale,分布式推理
- MLflow Model Serving — MLflow 内置
高性能推理引擎
- NVIDIA Triton Inference Server — GPU 高吞吐
- TensorRT-LLM — NVIDIA LLM 优化(隶属 4-04)
- vLLM / SGLang / TGI — LLM 推理框架
- ONNX Runtime — 跨硬件推理(隶属 4-04)
云厂商一站式
- AWS SageMaker Endpoints
- Vertex AI Endpoints
- Azure ML Online Endpoints
- Databricks Model Serving
中国玩家
A/B 测试的关键指标
- 业务指标:转化率、CTR、GMV、留存
- 模型指标:准确率、F1(与训练集对齐验证)
- 系统指标:P99 延迟、QPS、错误率
- 成本指标:单请求 GPU 成本、内存占用
常见挑战
- 训推不一致(Training-Serving Skew) — 特征工程在训练 / 推理两处不一致
- 冷启动 — 模型加载慢、首请求延迟高
- 多模型版本管理 — 与 模型版本控制 紧密耦合
- 资源调度 — GPU 利用率、自动扩缩容
- 回滚 & 灾备 — 新版翻车 30 秒回滚
LLM 时代的特殊性
- LLM 单实例可服务百万 / 千万用户 → 调度复杂度爆炸
- 推理成本高 → 优化(PagedAttention、连续批处理、量化)至关重要
- 多模型路由(小模型先答,大模型回退) → 与 LLMOps / AgentOps 融合
相关
- MLOps / 模型版本控制 / 数据漂移检测
- 4-04-模型部署与优化(深度优化在该子行业)
∈ belongs_to::3-07-AI原生中间件与开发平台