LLMOps
MLOps 的细分延伸,专门处理大语言模型生命周期管理特有的挑战(提示词、RAG 链路、幻觉、对齐评估)。
定义
LLMOps 是 MLOps 在大语言模型时代的演进版本,针对 LLM / 多模态模型生产环境的特有挑战,提供运维工具与方法论。
与传统 MLOps 的差异
| 维度 | 传统 MLOps | LLMOps |
|---|---|---|
| 模型类型 | 分类、回归、CV 等 | LLM、多模态、Agent |
| 关键资产 | 训练数据、模型权重 | 提示词、RAG 知识库、Agent 工作流 |
| 评估方式 | 准确率、F1 等 | 幻觉检测、对齐评估、人类反馈 |
| 监控指标 | 数据漂移、模型衰减 | RAG 检索质量、提示词性能、token 成本 |
| 部署模式 | API / 嵌入式 | API + 工具链 + 多模型编排 |
核心能力
- 提示词管理(Prompt Management):版本管理、A/B 测试
- RAG 链路监控:检索质量、嵌入向量漂移
- 幻觉检测(Hallucination Detection)
- 对齐评估:safety / helpfulness / honesty
- Token 成本监控:按用户/应用/模型计费
- 多模型编排:路由、降级、回退
- Agent 工作流追踪
主要玩家
- 海外:Weights & Biases Prompts/Weave、LangSmith(LangChain)、Databricks Mosaic AI、Helicone、Langfuse、Vellum
- 国内:第四范式 / 星环科技 / 阿里云 PAI / 火山引擎 方舟
在 AI 产业链中的角色
- 生成式 AI 浪潮的必备基础设施:2026E 80%+ 企业将采用 GenAI,无 LLMOps 难以规模化
- MLOps 厂商的关键演进路径:W&B、Databricks 等老牌玩家通过加 LLMOps 能力实现估值重估
- 新兴独立赛道:LangSmith、Langfuse 等针对 LLM 应用层的专业工具
演进历史
- 2023 概念由 LangChain、Humanloop 等同时提出
- 2024 W&B Prompts、Databricks Mosaic AI、LangSmith 商业化加速
- 2025 Agent / RAG / 工具调用监控成为新焦点
相关概念
∈ belongs_to::4-04-模型部署与优化