AI产业链地图·知识库 断点续训 · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/断点续训

更新 2026·06·17

概念技术 / 术语

断点续训

Checkpoint Resume · Fault Tolerance Training · 容错训练 · 训练断点恢复

如果不能容错：每次故障从零重训 → 数月 + 千万美金算力直接打水漂。

断点续训 CONCEPT · 概念

首次提出: 2020
关键参与方: [[NVIDIA]] · [[Meta]] · [[华为]] · [[并行科技]]
反向引用: 3 处 · 来自 2 页

归属大模型训练容错算力调度第三层

断点续训（Checkpoint Resume / Fault-tolerant Training）

大模型训练动辄数月、千卡-万卡同步，单点硬件故障率 × 卡数 = 几乎必然有失败 — 断点续训是"保住已花算力"的工程必需。

为什么必需

大模型训练规模：

GPT-4 训练规模 ~25,000 张 A100，~3 个月
LLaMA-3 405B：16,000 张 H100，~54 天
单 GPU MTBF（平均故障间隔）~ 8 万小时 ≈ 9.1 年
万卡集群每天故障次数 = 24h × 10,000 / (80,000h × 365) ≈ 0.82 次/天
即"几乎每天有卡挂"

如果不能容错：每次故障从零重训 → 数月 + 千万美金算力直接打水漂。

关键能力

能力	描述
checkpoint	定期把模型权重 + 优化器状态写入持久化存储
故障检测	心跳、网络异常、NaN loss 等快速识别
任务重启	失败节点摘除、备用节点接管
恢复加载	从最近 checkpoint 重新加载继续训练
异步 checkpoint	不阻塞训练写盘（关键，省时 90%+）
跨架构恢复	在 NVIDIA 上挂 → 切到昇腾继续（中国国产替代刚需）

主流方案

训练框架内置

PyTorch DCP（Distributed Checkpoint）
Megatron-LM + NVIDIA NeMo
DeepSpeed（微软）
Colossal-AI
华为 MindSpore Auto-Recovery

高速存储 + 任务调度

GPU Direct Storage — 绕过 CPU 直接 SSD/NVMe
Lustre / GPFS / BeeGFS — 高吞吐并行文件系统
NVIDIA Run:AI / Volcano — 容错调度
Slurm — 经典 HPC 调度

中国玩家

并行科技 — 18 年超算经验，国内最强容错训练 know-how
第四范式 先知 AI 平台容错训练
阿里云 PAI-EFLOPS、字节火山引擎 mLOps

关键指标

指标	含义	典型值
checkpoint 间隔	多久写一次	30 分钟-2 小时
checkpoint 写入耗时	单次写入	几十秒 - 几分钟
故障 → 恢复耗时	检测+替换+加载	5-30 分钟
训练有效时间占比	实际算力利用	75-95%
存储吞吐	写 checkpoint 带宽	数十 GB/s

在 AI 产业链中的位置

训练侧 — 与算力调度平台 / 异构算力池化紧密耦合，是大模型训练能否 "跑得动" 的工程底线
国产替代 — 国产卡早期稳定性较弱，断点续训能力直接决定使用体验
算力商护城河 — 资源利用率 + 故障恢复能力，是第三方算力服务（如并行科技 / 优刻得）的核心竞争力

演进

2020-22 OPT-175B / Bloom 等开源大模型暴露训练失败问题
2023 Megatron + DeepSpeed 把断点续训做成标配
2024-25 跨架构续训（CUDA→昇腾）成为国产替代刚需

相关

算力调度平台 / 异构算力池化 / 算力网络
大模型训练框架 / 高速存储

∈ belongs_to::3-07-AI原生中间件与开发平台

反向引用链接到本页

反向引用 3

按引用量 ↓

… 一编排** | K8s + Device Plugin | Volcano、Kueue | | **跨集群调度** | 多智算中心统一视图 | 中科曙光 ParaStor 调度 | | **断点续训** | 任务跨节点 / 跨架构续跑 | 断点续训 | ## 主要玩家 ### 中国 - **[[趋动科技]]** OrionX — GPU 池化先锋，软件定义 GPU - **[[中科曙光]]** — "立体计算" 战略，七省智算异构池 …

… | **网络拓扑** | NVLink / IB / RoCE 拓扑感知调度 | ## 相关 - [[算力调度平台]] / [[算力网络]] / [[全国一体化算力服务]] - 断点续训 / [[CUDA 生态]] / [[CANN]] ∈ belongs_to::[[3-07-AI原生中间件与开发平台]] …

查看原文 →

… 5. **模型监控**：[[数据漂移检测]] / [[推理延迟监控]] / [[模型性能退化告警]] 6. **算力调度**：[[算力网络]] / [[异构算力池化]] / [[全国一体化算力服务]] / 断点续训7. **政策驱动**：[[东数西算]] / [[立体计算]] / [[并行算网]] / [[DeepAI]] 8. **AI 平台**：[[先知AI平台]]（第四范式）/ [[Sophon MLOps]] / [[飞桨 PaddlePa …

查看原文 →