AIOps(智能运维)
AI for IT Operations — Gartner 2016 年提出,把机器学习/深度学习/大模型用到 IT 运维全流程:异常检测、根因定位、故障预测、自动修复、能效优化。是 DCIM 4.0 的核心引擎。
定义
AIOps = Artificial Intelligence for IT Operations — 用 AI 算法对 海量运维数据(日志、指标、链路、告警、工单、CMDB)做实时分析,把传统"人盯告警 + 经验排障"升级为"AI 主动发现 + 智能闭环"。
由 Gartner 在 2016 年系统化提出,2020 后随着深度学习和 LLM 成熟,从"统计模型"演进到"大模型 + Agent"。
5 大核心能力
| 能力 | 描述 | 典型算法 |
|---|---|---|
| 异常检测 | 从海量指标中发现异常波动 | LSTM / Isolation Forest / Prophet |
| 根因分析(RCA) | 多个告警 → 定位真正源头 | 因果推断 / Graph Neural Network |
| 故障预测 | 提前 24-72h 预警硬件故障 | 时序预测 / 生存分析 |
| 告警降噪 | 1000 条告警合并为 5 条事件 | 聚类 / Embedding |
| 自动修复 | 触发 SOP 自动处置 | Runbook + Agent / LLM |
在 DCIM 中的应用(据投行内部研究 2026-02)
- 硬盘故障预测 — SMART 数据 + LSTM,提前 24-72h 预警,避免数据丢失
- UPS / 制冷机组健康度 — 振动 / 温升 / 电流谐波分析,预测电容老化
- PUE 实时优化 — 根据 IT 负载、室外温度、湿度,动态调节制冷策略,PUE -0.08-0.15
- 告警风暴抑制 — 一台 PDU 故障引发 200 条告警 → AI 合并为 1 个事件
- 容量预测 — 历史趋势 + AI 模型预测未来 6 个月电力/空间需求
- 运维问答 Agent — 工程师用自然语言查询"为什么 A 区温度高?",LLM 串联 DCIM + 数字孪生
主要玩家
国际通用 AIOps(不限 DCIM)
DCIM 嵌入 AIOps
- 施耐德电气 EcoStruxure IT Advisor — ML 故障预测
- Vertiv Vertiv Intelligence Director — Predictive Analytics
- 华为数字能源 iCooling — AI 制冷优化标杆
- ABB ABB Ability Energy Manager — 能源 AI
中国 AIOps 新锐
演进趋势
- 从异常检测 → 因果推断 — 不只是"有异常",还要"为什么"
- 从单模态 → 多模态融合 — 日志 + 指标 + 链路 + 拓扑 + 视频
- 从统计模型 → 大模型 — LLM 做根因解释 + 运维知识问答
- 从被动响应 → 主动自愈 — Agent 自动执行 Runbook
上下游关系
↑ up::大语言模型 预测性运维 ↓ down::3-10-DCIM数据中心基础设施管理软件 3-03-数据中心 ∈ belongs_to::3-10-DCIM数据中心基础设施管理软件