AI产业链地图·知识库 高质量数据枯竭 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/高质量数据枯竭
更新 2026·06·17
概念 技术 / 术语

高质量数据枯竭

Data Exhaustion · Data Wall · 数据荒 · High-quality Data Depletion

Epoch AI 研究(2022 起,多次更新)指出:

高质量数据枯竭 CONCEPT · 概念
首次提出
2022
关键参与方
[[Epoch AI]]
反向引用
6 处 · 来自 4
归属 数据枯竭AI数据大模型第四层

高质量数据枯竭(Data Exhaustion / Data Wall)

Epoch AI 等研究机构的核心预测:到 2026 年左右,用于大模型训练的高质量文本数据将基本被消耗殆尽。这一"数据荒"危机正在深刻重塑数据引擎产业格局,推动 合成数据 从"补充手段"升级为"核心供给"。

核心预测

Epoch AI 研究(2022 起,多次更新)指出:

  • 全球高质量文本数据(书籍、学术论文、新闻、维基百科等高质量来源)总量约 9 万亿 tokens
  • 大模型训练数据需求按当前速度(每代 10x)增长,到 2026 年 将耗尽
  • 多模态数据(图像、视频、音频)更早面临结构化数据瓶颈

五大应对路径

  1. 合成数据爆发合成数据 占比 Gartner 预测 2024 已达 60%,2030 绝大多数训练数据将合成
  2. 版权数据资产化 — 大模型公司从"灰色爬取"转向"合规授权",Reddit / Getty Images / 阅文集团 等版权方议价权崛起
  3. 多模态扩张 — 文本数据耗尽后转向视频 / 音频 / 3D 数据
  4. 小语种 + 长尾领域 — 200+ 语种(海天瑞声 强项)/ 垂直领域专家数据
  5. 测试时计算扩展(Test-time Compute) — 减少对训练数据规模的依赖,转向推理时多次采样(如 OpenAI o1 / o3)

数据来源

  • Epoch AI:英国研究机构,多次发表《Will we run out of data?》等论文
  • Pablo Villalobos / Anson Ho 等:核心作者

在 AI 产业链中的角色

  • 数据引擎子行业的核心叙事 — 几乎所有 4-01 子行业的投资逻辑都建立在"数据稀缺性提升"上
  • 合成数据估值锚Gretel AI 被 NVIDIA 收购、MOSTLY AI 等估值,都受这一叙事推动

争议

  • 乐观派:互联网数据持续生成,且多模态数据巨量未挖掘
  • 悲观派:高质量数据(书籍、学术、新闻)增长慢,大模型增长快,缺口扩大
  • 务实派:测试时计算 + 合成数据可缓解,但不能完全解决

相关概念

∈ belongs_to::4-01-数据引擎