AI产业链地图·知识库 万卡集群 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/万卡集群
更新 2026·06·17
概念 技术 / 术语

万卡集群

10K GPU Cluster · 万卡 GPU 集群 · 万卡智算集群

万卡集群(10K GPU Cluster)指可以在单一训练任务上调度 ≥10,000 张 GPU/NPU 并行计算的算力集群。它不只是简单的"硬件堆叠",而是一个完整的工程系统:硬件(GPU + 服务器 + 高速网络 + 存储)+ 软件栈(调度 + 通信库 + 框架 + 容错)+ 运维体系(液冷 + 能耗 + 故障定位)。

万卡集群 CONCEPT · 概念
首次提出
2023
关键参与方
[[NVIDIA]] · [[华为]] · [[阿里云]] · [[字节跳动]]
反向引用
11 处 · 来自 9
归属 AI算力智算GPU集群第三层

万卡集群

单一训练任务可用万张以上 GPU/NPU 协同计算的超大规模 AI 算力集群。是训练千亿参数以上大模型的硬门槛,从"千卡 → 万卡 → 十万卡"的演进定义了大模型军备竞赛的尺度。

定义

万卡集群(10K GPU Cluster)指可以在单一训练任务上调度 ≥10,000 张 GPU/NPU 并行计算的算力集群。它不只是简单的"硬件堆叠",而是一个完整的工程系统:硬件(GPU + 服务器 + 高速网络 + 存储)+ 软件栈(调度 + 通信库 + 框架 + 容错)+ 运维体系(液冷 + 能耗 + 故障定位)。

万卡集群的核心挑战不是算力本身,而是有效算力比(MFU,Model Flops Utilization)— 因 GPU 故障、网络抖动、负载不均衡,万卡训练实际 MFU 通常只能达到 35-50%。

技术细节

  • 网络拓扑:Fat-Tree 三层 / Dragonfly+ / CloudMatrix384 全对等
  • 节点内互联NVLink 900GB/s(8 卡全互联)/ NVSwitch
  • 节点间互联InfiniBand NDR 400G / 800G、RoCE v2
  • 并行策略:数据并行(DP)+ 张量并行(TP)+ 流水线并行(PP)+ 专家并行(EP)+ ZeRO 优化
  • 容错:自动 checkpoint、故障节点自动隔离与替换、训练任务断点续传
  • 能耗:万卡 H100 集群典型功耗 10-15 MW,年耗电 1 亿度+

主要玩家

在 AI 产业链中的角色

万卡集群是大模型时代云计算和数据中心的标志性产品。它把第二层(GPU/NPU/服务器/网络)的所有最强硬件拼接成一个工程系统,是第三层云厂商核心竞争力的直接体现。第四层大模型公司的训练规模上限直接由可用万卡集群规模决定。

演进历史

  • 2022 前:千卡集群是主流,万卡仅 Hyperscaler 拥有
  • 2023:ChatGPT 后大模型公司纷纷扩建至万卡
  • 2024:万卡成"国内一线大模型公司起步配置"
  • 2025:xAI Colossus 部署 20 万张 H100 GPU,刷新世界纪录;华为 CloudMatrix384 实现昇腾万卡级国产替代
  • 2025-2030:十万卡集群 进入工程实践,OpenAI 星门计划探索百万卡

相关概念 / 关系

↑ up::2-01-核心逻辑芯片 2-02-AI服务器整机 3-06-数据中心网络架构与互联服务 ↓ down::4-02-模型工厂 ↔ related::CloudMatrix384 智算服务 ∈ belongs_to::3-01-云计算与智算平台

参考:来源摘要