AI产业链地图·知识库 AIOps · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
更新 2026·06·17
概念 技术 / 术语

AIOps

Artificial Intelligence for IT Operations · 智能运维 · AI 运维

AIOps = Artificial Intelligence for IT Operations — 用 AI 算法对 海量运维数据(日志、指标、链路、告警、工单、CMDB)做实时分析,把传统"人盯告警 + 经验排障"升级为"AI 主动发现 + 智能闭环"。

AIOps CONCEPT · 概念
首次提出
2016
关键参与方
[[云集智造]] · [[华为数字能源]] · [[施耐德电气]] · [[Datadog]]
反向引用
8 处 · 来自 6
归属 DCIMAIOps智能运维预测性运维第三层

AIOps(智能运维)

AI for IT Operations — Gartner 2016 年提出,把机器学习/深度学习/大模型用到 IT 运维全流程:异常检测、根因定位、故障预测、自动修复、能效优化。是 DCIM 4.0 的核心引擎。

定义

AIOps = Artificial Intelligence for IT Operations — 用 AI 算法对 海量运维数据(日志、指标、链路、告警、工单、CMDB)做实时分析,把传统"人盯告警 + 经验排障"升级为"AI 主动发现 + 智能闭环"。

由 Gartner 在 2016 年系统化提出,2020 后随着深度学习和 LLM 成熟,从"统计模型"演进到"大模型 + Agent"。

5 大核心能力

能力 描述 典型算法
异常检测 从海量指标中发现异常波动 LSTM / Isolation Forest / Prophet
根因分析(RCA) 多个告警 → 定位真正源头 因果推断 / Graph Neural Network
故障预测 提前 24-72h 预警硬件故障 时序预测 / 生存分析
告警降噪 1000 条告警合并为 5 条事件 聚类 / Embedding
自动修复 触发 SOP 自动处置 Runbook + Agent / LLM

在 DCIM 中的应用(据投行内部研究 2026-02

  1. 硬盘故障预测 — SMART 数据 + LSTM,提前 24-72h 预警,避免数据丢失
  2. UPS / 制冷机组健康度 — 振动 / 温升 / 电流谐波分析,预测电容老化
  3. PUE 实时优化 — 根据 IT 负载、室外温度、湿度,动态调节制冷策略,PUE -0.08-0.15
  4. 告警风暴抑制 — 一台 PDU 故障引发 200 条告警 → AI 合并为 1 个事件
  5. 容量预测 — 历史趋势 + AI 模型预测未来 6 个月电力/空间需求
  6. 运维问答 Agent — 工程师用自然语言查询"为什么 A 区温度高?",LLM 串联 DCIM + 数字孪生

主要玩家

国际通用 AIOps(不限 DCIM)

DCIM 嵌入 AIOps

中国 AIOps 新锐

  • 云集智造 / CloudWise — AIOps + DCIM 协同
  • 博睿数据 / Bonree — 通用 AIOps
  • 优锘科技 ThingJS — 数字孪生 + AIOps

演进趋势

  • 从异常检测 → 因果推断 — 不只是"有异常",还要"为什么"
  • 从单模态 → 多模态融合 — 日志 + 指标 + 链路 + 拓扑 + 视频
  • 从统计模型 → 大模型 — LLM 做根因解释 + 运维知识问答
  • 从被动响应 → 主动自愈 — Agent 自动执行 Runbook

上下游关系

↑ up::大语言模型 预测性运维 ↓ down::3-10-DCIM数据中心基础设施管理软件 3-03-数据中心 ∈ belongs_to::3-10-DCIM数据中心基础设施管理软件