AI产业链地图·知识库 CloudMatrix384 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/CloudMatrix384
更新 2026·06·17
概念 技术 / 术语

CloudMatrix384

CM384 · 华为超节点 · CloudMatrix 384

CloudMatrix384(CM384)是 华为 2024-25 推出的超节点(Super Pod)级 AI 训练 / 推理硬件平台。单节点内集成 384 颗昇腾 910C NPU + 192 颗鲲鹏 920 CPU + 高速光互联,所有计算单元通过全对等(all-to-all)光网络互联,对标 NVIDIA GB200 NVL72 的 72 颗 Blackwell + Grace CPU 架构,但卡数密度高 5 倍。

CloudMatrix384 CONCEPT · 概念
首次提出
2024
关键参与方
[[华为]] · [[华为云]]
反向引用
28 处 · 来自 12
归属 华为昇腾超节点国产替代第三层

CloudMatrix384

华为 推出的国产 AI 超节点架构。384 颗昇腾 NPU + 192 颗鲲鹏 CPU 全对等互联,对标 NVIDIA GB200 NVL72。是中国 AI 算力国产替代的旗舰产品,已在 华为云 部署 300+ 套

定义

CloudMatrix384(CM384)是 华为 2024-25 推出的超节点(Super Pod)级 AI 训练 / 推理硬件平台。单节点内集成 384 颗昇腾 910C NPU + 192 颗鲲鹏 920 CPU + 高速光互联,所有计算单元通过全对等(all-to-all)光网络互联,对标 NVIDIA GB200 NVL72 的 72 颗 Blackwell + Grace CPU 架构,但卡数密度高 5 倍。

CM384 的设计哲学是"用规模换性能":单颗昇腾 910C 算力低于 NVIDIA B200,但通过更密集的并行和更高的互联带宽,整机训练性能据华为披露可媲美 GB200 NVL72。

技术细节

  • 算力配置:384 颗昇腾 910C NPU + 192 颗鲲鹏 920 CPU
  • 互联:全对等光互联(基于自研光模块),单节点内点对点带宽数百 GB/s
  • 机柜:单超节点占 16 个标准机柜,整机功耗约 ~600 kW
  • 冷却:全液冷设计,PUE ≤ 1.15
  • 算力性能:单超节点峰值 FP16 ~300 PFLOPS(华为披露)
  • 软件栈CANN + MindSpore + ModelArts,配套 盘古大模型 优化

主要玩家

在 AI 产业链中的角色

CM384 是中国应对美国 NVIDIA H100/H200/B200 出口管制的"国家级答卷"。在 CUDA生态 难以短期突破的前提下,华为通过堆叠 昇腾生态 NPU 数量、配套全栈软硬件来对冲单卡性能差距。已在 华为云 部署 300+ 套,目标 2025 算力突破 150 EFLOPS,是国产 AI 算力的核心增量。

演进历史

  • 2024:CloudMatrix 384 架构曝光,对标 NVIDIA GB200 NVL72
  • 2025-Q1:华为云 贵安智算中心首批部署,规模化导入
  • 2025-Q2:累计部署 300+ 套,华为云 智算算力突破 100 EFLOPS
  • 2025-Q4:目标累计算力 150 EFLOPS
  • 2026E:CloudMatrix 下一代(基于昇腾 920)发布

相关概念 / 关系

⚔ competitor::GB200 NVL72 GB300 NVL72 ↑ up::昇腾生态 ↔ related::万卡集群 ↓ down::华为云 盘古大模型 ∈ belongs_to::3-01-云计算与智算平台

参考:来源摘要