AgentOps(Agent Operations)
MLOps / LLMOps 在 AI Agent 时代 的最新演进 — 监控、追踪、调试、评估 Agent 工作流(包括工具调用、多步推理、多 Agent 协作),是 2025 年开始爆发的新中间件赛道。
定义
AgentOps 服务于 AI Agent 的全生命周期运维:
| 阶段 | 核心能力 |
|---|---|
| 开发 | Agent 流程定义、工具注册、提示词管理 |
| 测试 | 任务集成功评估、多步推理追踪、回归测试 |
| 部署 | Agent 版本控制、灰度发布、回滚 |
| 运行时监控 | 工具调用成功率、推理延迟、token 成本、循环检测 |
| 反馈循环 | 人类反馈、自动评估、改进迭代 |
与 LLMOps / MLOps 的差异
| 维度 | MLOps | LLMOps | AgentOps |
|---|---|---|---|
| 核心实体 | 模型 | LLM + 提示词 + RAG | Agent + 工具 + 推理链 |
| 主要风险 | 数据漂移、模型衰减 | 幻觉、对齐 | 工具调用失败、无限循环、目标偏离 |
| 监控指标 | 准确率、F1 | 幻觉率、用户反馈 | 任务完成率、平均步数、token / 任务成本 |
| 追踪方式 | 模型日志 | 提示词版本 | 完整推理链 trace(OpenTelemetry GenAI semconv) |
| 工具支持 | 无 | 简单 RAG | 工具注册、MCP Server、权限管控 |
主要玩家
专业 AgentOps 工具
- LangSmith(LangChain 出品)— Agent 追踪 + 评估
- Langfuse — 开源 LLMOps/AgentOps 一体化
- Helicone / Vellum / Braintrust / AgentOps.ai
综合可观测性厂商扩展
- Datadog — AI SRE Agent 上线首月 2,000+ 客户,MCP Server 调用量季度环比 +11 倍(据3-07)
- New Relic / Dynatrace / Splunk — 同步加 Agent 监控
- Weights & Biases Weave — W&B 的 Agent 评估能力
中国
关键风险与挑战
- 追踪标准缺失 — OpenTelemetry GenAI semconv 仍在起草,跨工具兼容差
- 多 Agent 编排复杂度爆炸 — N 个 Agent 互相调用,trace 树指数增长
- 成本失控 — Agent "陷入循环" 一次任务跑掉数百 $token
- 评估难 — Agent 任务非确定性,难有自动化 ground truth
- 安全 & 权限 — Agent 调用真实世界工具(API、文件系统、支付)需精细管控
演进
- 2023 LangChain 普及 → 暴露 Agent 调试痛点
- 2024 H1 LangSmith / Langfuse / AgentOps.ai 等专业工具涌现
- 2024 H2 MCP Server 协议发布 → 工具标准化
- 2025 Datadog AI SRE Agent → 综合可观测性厂商入局
- 2025 CoreWeave × Weights & Biases 整合 → "GPU+AgentOps" 全栈
相关
∈ belongs_to::3-07-AI原生中间件与开发平台