万卡集群
单一训练任务可用万张以上 GPU/NPU 协同计算的超大规模 AI 算力集群。是训练千亿参数以上大模型的硬门槛,从"千卡 → 万卡 → 十万卡"的演进定义了大模型军备竞赛的尺度。
定义
万卡集群(10K GPU Cluster)指可以在单一训练任务上调度 ≥10,000 张 GPU/NPU 并行计算的算力集群。它不只是简单的"硬件堆叠",而是一个完整的工程系统:硬件(GPU + 服务器 + 高速网络 + 存储)+ 软件栈(调度 + 通信库 + 框架 + 容错)+ 运维体系(液冷 + 能耗 + 故障定位)。
万卡集群的核心挑战不是算力本身,而是有效算力比(MFU,Model Flops Utilization)— 因 GPU 故障、网络抖动、负载不均衡,万卡训练实际 MFU 通常只能达到 35-50%。
技术细节
- 网络拓扑:Fat-Tree 三层 / Dragonfly+ / CloudMatrix384 全对等
- 节点内互联:NVLink 900GB/s(8 卡全互联)/ NVSwitch
- 节点间互联:InfiniBand NDR 400G / 800G、RoCE v2
- 并行策略:数据并行(DP)+ 张量并行(TP)+ 流水线并行(PP)+ 专家并行(EP)+ ZeRO 优化
- 容错:自动 checkpoint、故障节点自动隔离与替换、训练任务断点续传
- 能耗:万卡 H100 集群典型功耗 10-15 MW,年耗电 1 亿度+
主要玩家
- 国际:xAI Colossus(20 万卡 H100)、OpenAI Stargate(百万卡规划)、Meta Research SuperCluster、Microsoft Azure Eagle、Google TPU v5p Pod
- 中国互联网:字节跳动 火山引擎、阿里云 灵骏、腾讯 智能高性能集群、百度智能云 百舸 / 万源
- 中国国产:华为云 贵安智算中心(11 万+ 昇腾 NPU,CloudMatrix384 300+ 套)
- AI 公司自建:商汤科技 SenseCore大装置 4 万 GPU
在 AI 产业链中的角色
万卡集群是大模型时代云计算和数据中心的标志性产品。它把第二层(GPU/NPU/服务器/网络)的所有最强硬件拼接成一个工程系统,是第三层云厂商核心竞争力的直接体现。第四层大模型公司的训练规模上限直接由可用万卡集群规模决定。
演进历史
- 2022 前:千卡集群是主流,万卡仅 Hyperscaler 拥有
- 2023:ChatGPT 后大模型公司纷纷扩建至万卡
- 2024:万卡成"国内一线大模型公司起步配置"
- 2025:xAI Colossus 部署 20 万张 H100 GPU,刷新世界纪录;华为 CloudMatrix384 实现昇腾万卡级国产替代
- 2025-2030:十万卡集群 进入工程实践,OpenAI 星门计划探索百万卡
相关概念 / 关系
↑ up::2-01-核心逻辑芯片 2-02-AI服务器整机 3-06-数据中心网络架构与互联服务 ↓ down::4-02-模型工厂 ↔ related::CloudMatrix384 智算服务 ∈ belongs_to::3-01-云计算与智算平台
参考:来源摘要