断点续训(Checkpoint Resume / Fault-tolerant Training)
大模型训练动辄数月、千卡-万卡同步,单点硬件故障率 × 卡数 = 几乎必然有失败 — 断点续训是"保住已花算力"的工程必需。
为什么必需
大模型训练规模:
- GPT-4 训练规模 ~25,000 张 A100,~3 个月
- LLaMA-3 405B:16,000 张 H100,~54 天
- 单 GPU MTBF(平均故障间隔)~ 8 万小时 ≈ 9.1 年
- 万卡集群每天故障次数 = 24h × 10,000 / (80,000h × 365) ≈ 0.82 次/天
- 即"几乎每天有卡挂"
如果不能容错:每次故障从零重训 → 数月 + 千万美金算力直接打水漂。
关键能力
| 能力 | 描述 |
|---|---|
| checkpoint | 定期把模型权重 + 优化器状态写入持久化存储 |
| 故障检测 | 心跳、网络异常、NaN loss 等快速识别 |
| 任务重启 | 失败节点摘除、备用节点接管 |
| 恢复加载 | 从最近 checkpoint 重新加载继续训练 |
| 异步 checkpoint | 不阻塞训练写盘(关键,省时 90%+) |
| 跨架构恢复 | 在 NVIDIA 上挂 → 切到昇腾继续(中国国产替代刚需) |
主流方案
训练框架内置
- PyTorch DCP(Distributed Checkpoint)
- Megatron-LM + NVIDIA NeMo
- DeepSpeed(微软)
- Colossal-AI
- 华为 MindSpore Auto-Recovery
高速存储 + 任务调度
- GPU Direct Storage — 绕过 CPU 直接 SSD/NVMe
- Lustre / GPFS / BeeGFS — 高吞吐并行文件系统
- NVIDIA Run:AI / Volcano — 容错调度
- Slurm — 经典 HPC 调度
中国玩家
关键指标
| 指标 | 含义 | 典型值 |
|---|---|---|
| checkpoint 间隔 | 多久写一次 | 30 分钟-2 小时 |
| checkpoint 写入耗时 | 单次写入 | 几十秒 - 几分钟 |
| 故障 → 恢复耗时 | 检测+替换+加载 | 5-30 分钟 |
| 训练有效时间占比 | 实际算力利用 | 75-95% |
| 存储吞吐 | 写 checkpoint 带宽 | 数十 GB/s |
在 AI 产业链中的位置
- 训练侧 — 与 算力调度平台 / 异构算力池化 紧密耦合,是大模型训练能否 "跑得动" 的工程底线
- 国产替代 — 国产卡早期稳定性较弱,断点续训能力直接决定使用体验
- 算力商护城河 — 资源利用率 + 故障恢复能力,是第三方算力服务(如 并行科技 / 优刻得)的核心竞争力
演进
- 2020-22 OPT-175B / Bloom 等开源大模型暴露训练失败问题
- 2023 Megatron + DeepSpeed 把断点续训做成标配
- 2024-25 跨架构续训(CUDA→昇腾)成为国产替代刚需
相关
∈ belongs_to::3-07-AI原生中间件与开发平台