CloudMatrix384
华为 推出的国产 AI 超节点架构。384 颗昇腾 NPU + 192 颗鲲鹏 CPU 全对等互联,对标 NVIDIA GB200 NVL72。是中国 AI 算力国产替代的旗舰产品,已在 华为云 部署 300+ 套。
定义
CloudMatrix384(CM384)是 华为 2024-25 推出的超节点(Super Pod)级 AI 训练 / 推理硬件平台。单节点内集成 384 颗昇腾 910C NPU + 192 颗鲲鹏 920 CPU + 高速光互联,所有计算单元通过全对等(all-to-all)光网络互联,对标 NVIDIA GB200 NVL72 的 72 颗 Blackwell + Grace CPU 架构,但卡数密度高 5 倍。
CM384 的设计哲学是"用规模换性能":单颗昇腾 910C 算力低于 NVIDIA B200,但通过更密集的并行和更高的互联带宽,整机训练性能据华为披露可媲美 GB200 NVL72。
技术细节
- 算力配置:384 颗昇腾 910C NPU + 192 颗鲲鹏 920 CPU
- 互联:全对等光互联(基于自研光模块),单节点内点对点带宽数百 GB/s
- 机柜:单超节点占 16 个标准机柜,整机功耗约 ~600 kW
- 冷却:全液冷设计,PUE ≤ 1.15
- 算力性能:单超节点峰值 FP16 ~300 PFLOPS(华为披露)
- 软件栈:CANN + MindSpore + ModelArts,配套 盘古大模型 优化
主要玩家
在 AI 产业链中的角色
CM384 是中国应对美国 NVIDIA H100/H200/B200 出口管制的"国家级答卷"。在 CUDA生态 难以短期突破的前提下,华为通过堆叠 昇腾生态 NPU 数量、配套全栈软硬件来对冲单卡性能差距。已在 华为云 部署 300+ 套,目标 2025 算力突破 150 EFLOPS,是国产 AI 算力的核心增量。
演进历史
- 2024:CloudMatrix 384 架构曝光,对标 NVIDIA GB200 NVL72
- 2025-Q1:华为云 贵安智算中心首批部署,规模化导入
- 2025-Q2:累计部署 300+ 套,华为云 智算算力突破 100 EFLOPS
- 2025-Q4:目标累计算力 150 EFLOPS
- 2026E:CloudMatrix 下一代(基于昇腾 920)发布
相关概念 / 关系
⚔ competitor::GB200 NVL72 GB300 NVL72 ↑ up::昇腾生态 ↔ related::万卡集群 ↓ down::华为云 盘古大模型 ∈ belongs_to::3-01-云计算与智算平台
参考:来源摘要