高质量数据枯竭(Data Exhaustion / Data Wall)
Epoch AI 等研究机构的核心预测:到 2026 年左右,用于大模型训练的高质量文本数据将基本被消耗殆尽。这一"数据荒"危机正在深刻重塑数据引擎产业格局,推动 合成数据 从"补充手段"升级为"核心供给"。
核心预测
Epoch AI 研究(2022 起,多次更新)指出:
- 全球高质量文本数据(书籍、学术论文、新闻、维基百科等高质量来源)总量约 9 万亿 tokens
- 大模型训练数据需求按当前速度(每代 10x)增长,到 2026 年 将耗尽
- 多模态数据(图像、视频、音频)更早面临结构化数据瓶颈
五大应对路径
- 合成数据爆发 — 合成数据 占比 Gartner 预测 2024 已达 60%,2030 绝大多数训练数据将合成
- 版权数据资产化 — 大模型公司从"灰色爬取"转向"合规授权",Reddit / Getty Images / 阅文集团 等版权方议价权崛起
- 多模态扩张 — 文本数据耗尽后转向视频 / 音频 / 3D 数据
- 小语种 + 长尾领域 — 200+ 语种(海天瑞声 强项)/ 垂直领域专家数据
- 测试时计算扩展(Test-time Compute) — 减少对训练数据规模的依赖,转向推理时多次采样(如 OpenAI o1 / o3)
数据来源
- Epoch AI:英国研究机构,多次发表《Will we run out of data?》等论文
- Pablo Villalobos / Anson Ho 等:核心作者
在 AI 产业链中的角色
- 数据引擎子行业的核心叙事 — 几乎所有 4-01 子行业的投资逻辑都建立在"数据稀缺性提升"上
- 合成数据估值锚 — Gretel AI 被 NVIDIA 收购、MOSTLY AI 等估值,都受这一叙事推动
争议
- 乐观派:互联网数据持续生成,且多模态数据巨量未挖掘
- 悲观派:高质量数据(书籍、学术、新闻)增长慢,大模型增长快,缺口扩大
- 务实派:测试时计算 + 合成数据可缓解,但不能完全解决
相关概念
- 合成数据 / 版权数据
- Pre-training / Scale AI
∈ belongs_to::4-01-数据引擎