AI产业链地图·知识库 断点续训 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/断点续训
更新 2026·06·17
概念 技术 / 术语

断点续训

Checkpoint Resume · Fault Tolerance Training · 容错训练 · 训练断点恢复

如果不能容错:每次故障从零重训 → 数月 + 千万美金算力直接打水漂。

断点续训 CONCEPT · 概念
首次提出
2020
关键参与方
[[NVIDIA]] · [[Meta]] · [[华为]] · [[并行科技]]
反向引用
3 处 · 来自 2
归属 大模型训练容错算力调度第三层

断点续训(Checkpoint Resume / Fault-tolerant Training)

大模型训练动辄数月、千卡-万卡同步,单点硬件故障率 × 卡数 = 几乎必然有失败 — 断点续训是"保住已花算力"的工程必需。

为什么必需

大模型训练规模:

  • GPT-4 训练规模 ~25,000 张 A100,~3 个月
  • LLaMA-3 405B:16,000 张 H100,~54 天
  • 单 GPU MTBF(平均故障间隔)~ 8 万小时 ≈ 9.1 年
  • 万卡集群每天故障次数 = 24h × 10,000 / (80,000h × 365) ≈ 0.82 次/天
  • 即"几乎每天有卡挂"

如果不能容错:每次故障从零重训 → 数月 + 千万美金算力直接打水漂。

关键能力

能力 描述
checkpoint 定期把模型权重 + 优化器状态写入持久化存储
故障检测 心跳、网络异常、NaN loss 等快速识别
任务重启 失败节点摘除、备用节点接管
恢复加载 从最近 checkpoint 重新加载继续训练
异步 checkpoint 不阻塞训练写盘(关键,省时 90%+)
跨架构恢复 在 NVIDIA 上挂 → 切到昇腾继续(中国国产替代刚需)

主流方案

训练框架内置

  • PyTorch DCP(Distributed Checkpoint)
  • Megatron-LM + NVIDIA NeMo
  • DeepSpeed(微软)
  • Colossal-AI
  • 华为 MindSpore Auto-Recovery

高速存储 + 任务调度

  • GPU Direct Storage — 绕过 CPU 直接 SSD/NVMe
  • Lustre / GPFS / BeeGFS — 高吞吐并行文件系统
  • NVIDIA Run:AI / Volcano — 容错调度
  • Slurm — 经典 HPC 调度

中国玩家

关键指标

指标 含义 典型值
checkpoint 间隔 多久写一次 30 分钟-2 小时
checkpoint 写入耗时 单次写入 几十秒 - 几分钟
故障 → 恢复耗时 检测+替换+加载 5-30 分钟
训练有效时间占比 实际算力利用 75-95%
存储吞吐 写 checkpoint 带宽 数十 GB/s

在 AI 产业链中的位置

  • 训练侧 — 与 算力调度平台 / 异构算力池化 紧密耦合,是大模型训练能否 "跑得动" 的工程底线
  • 国产替代 — 国产卡早期稳定性较弱,断点续训能力直接决定使用体验
  • 算力商护城河 — 资源利用率 + 故障恢复能力,是第三方算力服务(如 并行科技 / 优刻得)的核心竞争力

演进

  • 2020-22 OPT-175B / Bloom 等开源大模型暴露训练失败问题
  • 2023 Megatron + DeepSpeed 把断点续训做成标配
  • 2024-25 跨架构续训(CUDA→昇腾)成为国产替代刚需

相关

∈ belongs_to::3-07-AI原生中间件与开发平台