万卡集群

10K GPU Cluster · 万卡 GPU 集群 · 万卡智算集群

万卡集群（10K GPU Cluster）指可以在单一训练任务上调度 ≥10,000 张 GPU/NPU 并行计算的算力集群。它不只是简单的"硬件堆叠"，而是一个完整的工程系统：硬件（GPU + 服务器 + 高速网络 + 存储）+ 软件栈（调度 + 通信库 + 框架 + 容错）+ 运维体系（液冷 + 能耗 + 故障定位）。

万卡集群

单一训练任务可用万张以上 GPU/NPU 协同计算的超大规模 AI 算力集群。是训练千亿参数以上大模型的硬门槛，从"千卡 → 万卡 → 十万卡"的演进定义了大模型军备竞赛的尺度。

定义

万卡集群的核心挑战不是算力本身，而是有效算力比（MFU，Model Flops Utilization）— 因 GPU 故障、网络抖动、负载不均衡，万卡训练实际 MFU 通常只能达到 35-50%。

技术细节

网络拓扑：Fat-Tree 三层 / Dragonfly+ / CloudMatrix384 全对等
节点内互联：NVLink 900GB/s（8 卡全互联）/ NVSwitch
节点间互联：InfiniBand NDR 400G / 800G、RoCE v2
并行策略：数据并行（DP）+ 张量并行（TP）+ 流水线并行（PP）+ 专家并行（EP）+ ZeRO 优化
容错：自动 checkpoint、故障节点自动隔离与替换、训练任务断点续传
能耗：万卡 H100 集群典型功耗 10-15 MW，年耗电 1 亿度+

主要玩家

国际：xAI Colossus（20 万卡 H100）、OpenAI Stargate（百万卡规划）、Meta Research SuperCluster、Microsoft Azure Eagle、Google TPU v5p Pod
中国互联网：字节跳动火山引擎、阿里云灵骏、腾讯智能高性能集群、百度智能云百舸 / 万源
中国国产：华为云贵安智算中心（11 万+ 昇腾 NPU，CloudMatrix384 300+ 套）
AI 公司自建：商汤科技 SenseCore大装置 4 万 GPU

在 AI 产业链中的角色

万卡集群是大模型时代云计算和数据中心的标志性产品。它把第二层（GPU/NPU/服务器/网络）的所有最强硬件拼接成一个工程系统，是第三层云厂商核心竞争力的直接体现。第四层大模型公司的训练规模上限直接由可用万卡集群规模决定。

演进历史

2022 前：千卡集群是主流，万卡仅 Hyperscaler 拥有
2023：ChatGPT 后大模型公司纷纷扩建至万卡
2024：万卡成"国内一线大模型公司起步配置"
2025：xAI Colossus 部署 20 万张 H100 GPU，刷新世界纪录；华为 CloudMatrix384 实现昇腾万卡级国产替代
2025-2030：十万卡集群进入工程实践，OpenAI 星门计划探索百万卡

万卡集群

定义

技术细节

主要玩家

在 AI 产业链中的角色

演进历史

相关概念 / 关系

相关推荐