MLOps(Machine Learning Operations)
把 DevOps 思想搬到机器学习生命周期 — 数据→特征→训练→评估→部署→监控→重训练 全流程的工程化、自动化、可重复化体系。AI 工业化的"骨架"。
定义
MLOps = ML(机器学习)+ Ops(运维)。把传统软件工程的 CI/CD、版本控制、监控告警、可观测性 实践拓展到机器学习:
- 数据版本控制(DVC、LakeFS)
- 特征工程 与特征存储(Feature Store)
- 实验管理(实验追踪、超参数搜索)
- 模型版本控制(Model Registry)
- 模型部署(A/B、蓝绿、金丝雀)
- 模型监控(数据漂移检测、性能退化、公平性)
- CI/CD/CT(Continuous Training,自动重训练)
市场规模
- 全球 MLOps(2025E):$23.3 亿(Fortune) / $30.3 亿(Grand View)
- 全球 MLOps(2030E):$166 亿(CAGR 40.5%,GVR)
- 全球 MLOps(2034E):$259 亿(CAGR 28.9%,Fortune)
- 机构口径差异大,但普遍认为是 AI 基础设施增速最高的细分(据3-07)
主要玩家
海外
- Databricks — 全球最大数据+AI 平台,估值 $1,340 亿,年化 $54 亿
- Weights & Biases — 实验管理鼻祖,2025-03 被 CoreWeave $17 亿 收购
- Hugging Face — ML 模型 "GitHub",估值 $45 亿
- MLflow(Databricks 开源)— 事实标准实验追踪
- Kubeflow / Metaflow(Netflix)/ ZenML
中国
- 第四范式 — 中国 AI 商业化最大营收,2024 ¥52.61 亿,先知 AI 平台
- 星环科技 — Sophon MLOps,2025-08 港股 H 股
- 阿里云 PAI / 百度 BML / 腾讯 TI / 华为 ModelArts
- 火山引擎 方舟 / 云从科技 / 商汤 等
演进阶段
| 阶段 | 时间 | 标志 |
|---|---|---|
| MLOps 1.0 | 2015-19 | DataRobot / H2O.ai 自动建模 |
| MLOps 2.0 | 2020-22 | W&B / MLflow / Databricks 全栈 |
| MLOps → LLMOps | 2023-24 | 大模型时代,提示词/RAG 引入新维度 |
| MLOps → AgentOps | 2025+ | Agent 工作流监控、多 Agent 编排 |
"全栈整合"趋势
2025 年关键趋势:单点 MLOps 工具被快速整合到端到端平台:
- CoreWeave × Weights & Biases($17 亿,2025-03)— GPU 云 + MLOps
- Databricks 连环收购:MosaicML $13 亿 / Tabular $10 亿 / Neon ~$10 亿
- JFrog × Qwak AI(2025)— DevOps + MLOps
与 LLMOps / AgentOps 的关系
MLOps(2015+,传统 ML)
→ LLMOps(2023+,大模型特有:提示词、RAG、幻觉)
→ AgentOps(2025+,Agent 工作流、多 Agent 编排、工具调用监控)
相关
∈ belongs_to::3-07-AI原生中间件与开发平台