AI产业链地图·知识库 高质量数据枯竭 · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/高质量数据枯竭

更新 2026·06·17

概念技术 / 术语

高质量数据枯竭

Data Exhaustion · Data Wall · 数据荒 · High-quality Data Depletion

Epoch AI 研究（2022 起，多次更新）指出：

高质量数据枯竭 CONCEPT · 概念

首次提出: 2022
关键参与方: [[Epoch AI]]
反向引用: 6 处 · 来自 4 页

归属数据枯竭AI数据大模型第四层

高质量数据枯竭（Data Exhaustion / Data Wall）

Epoch AI 等研究机构的核心预测：到 2026 年左右，用于大模型训练的高质量文本数据将基本被消耗殆尽。这一"数据荒"危机正在深刻重塑数据引擎产业格局，推动合成数据从"补充手段"升级为"核心供给"。

核心预测

Epoch AI 研究（2022 起，多次更新）指出：

全球高质量文本数据（书籍、学术论文、新闻、维基百科等高质量来源）总量约 9 万亿 tokens
大模型训练数据需求按当前速度（每代 10x）增长，到 2026 年 将耗尽
多模态数据（图像、视频、音频）更早面临结构化数据瓶颈

五大应对路径

合成数据爆发 — 合成数据占比 Gartner 预测 2024 已达 60%，2030 绝大多数训练数据将合成
版权数据资产化 — 大模型公司从"灰色爬取"转向"合规授权"，Reddit / Getty Images / 阅文集团等版权方议价权崛起
多模态扩张 — 文本数据耗尽后转向视频 / 音频 / 3D 数据
小语种 + 长尾领域 — 200+ 语种（海天瑞声强项）/ 垂直领域专家数据
测试时计算扩展（Test-time Compute） — 减少对训练数据规模的依赖，转向推理时多次采样（如 OpenAI o1 / o3）

数据来源

Epoch AI：英国研究机构，多次发表《Will we run out of data?》等论文
Pablo Villalobos / Anson Ho 等：核心作者

在 AI 产业链中的角色

数据引擎子行业的核心叙事 — 几乎所有 4-01 子行业的投资逻辑都建立在"数据稀缺性提升"上
合成数据估值锚 — Gretel AI 被 NVIDIA 收购、MOSTLY AI 等估值，都受这一叙事推动

争议

乐观派：互联网数据持续生成，且多模态数据巨量未挖掘
悲观派：高质量数据（书籍、学术、新闻）增长慢，大模型增长快，缺口扩大
务实派：测试时计算 + 合成数据可缓解，但不能完全解决

相关概念

合成数据 / 版权数据
Pre-training / Scale AI

∈ belongs_to::4-01-数据引擎

反向引用链接到本页

反向引用 6

按引用量 ↓

… - **量大 + 单价低** — 对应 [[龙猫数据]] 等众包标注模式 - **质量过滤是关键** — 数据清洗、去重、去毒比数据量本身更影响效果 - **版权数据资产化方向** — 合规授权数据成为差异化来源 - **高质量数据枯竭** 主要发生在预训练数据这一层 ## 演进 - **2018-2020**：BERT / GPT-1/2/3，预训练范式确立 - **2022**：ChatGPT 引爆，预训练规模军备竞赛 …

… - **2025+**：合成数据 / 多模态扩展 / 测试时计算成为应对路径 ## 相关概念 - [[SFT]] / [[RLHF]]（后续训练阶段） - 高质量数据枯竭（核心瓶颈） - [[版权数据]] / [[合成数据]]（数据来源） ∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →

… # 合成数据（Synthetic Data） > 利用生成式 AI、统计模型或规则引擎 **人工创造** 的训练数据。在高质量数据枯竭背景下，已从"补充手段"升级为大模型训练的"核心供给"。Gartner 预测 2024 年 AI 训练中合成数据占比已达 **60%**，2030 年绝大多数训练数据将是合成数据。 …

… - **2035E**：$124.5 亿（Nester） ## 相关概念 - [[差分隐私]]（合成数据的隐私保证基础） - [[数据引擎]] / [[数据标注]]（替代关系） - 高质量数据枯竭（合成数据爆发的根本驱动） ∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →

… 5. **数据治理**：[[数据治理]] / [[数据血缘]] / 数据版本管理 / 偏差检测 / 去重去污染 6. **隐私增强计算**：[[联邦学习]] / [[差分隐私]] / 可信执行环境 7. **数据稀缺性危机**：高质量数据枯竭（Epoch AI 预测 2026 年高质量文本数据耗尽） ## 上下游关系 ↑ up::[[3-01-云计算与智算平台]] — 数据基础设施承载于云端 ↑ up::[[3-05-AI存储系统]] — 数据湖仓底层存储依托 …

查看原文 →

… - [[RLHF]] / [[DPO]] / [[RLAIF]] - [[合成数据]] / [[差分隐私]] - [[数据湖仓]] / [[Lakehouse]] / [[数据治理]] - [[版权数据]] / 高质量数据枯竭∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →