AI产业链地图·知识库 合成数据 · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/合成数据

更新 2026·06·17

概念技术 / 术语

合成数据

Synthetic Data · 人工合成数据

不是从真实世界采集，而是用算法/模型生成的训练数据。保留真实数据的统计特征但不包含原始记录，因此天然满足隐私合规要求。

合成数据 CONCEPT · 概念

首次提出: 2014
关键参与方: [[Gretel AI]] · [[MOSTLY AI]] · [[NVIDIA]]
反向引用: 18 处 · 来自 14 页

归属合成数据AI数据第四层

合成数据（Synthetic Data）

利用生成式 AI、统计模型或规则引擎 人工创造 的训练数据。在高质量数据枯竭背景下，已从"补充手段"升级为大模型训练的"核心供给"。Gartner 预测 2024 年 AI 训练中合成数据占比已达 60%，2030 年绝大多数训练数据将是合成数据。

定义

不是从真实世界采集，而是用算法/模型生成的训练数据。保留真实数据的统计特征但不包含原始记录，因此天然满足隐私合规要求。

主要技术路径

基于 LLM 的文本合成 — 用 GPT-4 / Claude 生成对话、问答、文章
基于扩散模型的图像/视频合成 — Stable Diffusion / Sora 等
基于 GAN/VAE 的表格数据合成 — Gretel AI / MOSTLY AI 主流
基于物理引擎的 3D 场景合成 — NVIDIA Omniverse、UE5（自动驾驶训练数据）

为什么关键

高质量真实数据枯竭 — Epoch AI 预测 2026 年高质量文本数据耗尽
隐私合规刚需 — GDPR / HIPAA 等约束下，金融、医疗等行业不能直接用真实数据
稀有场景数据 — 自动驾驶的边缘案例（碰撞、暴雨）真实采集成本高，合成可批量生成
多样性补充 — 真实数据可能有偏（性别、地域、种族），合成数据可平衡

主要玩家

国际：Gretel AI（已被 NVIDIA 收购）/ MOSTLY AI / Syntho / YData / Hazy（已被 SAS 收购）
中国：起步较晚，多为大厂内部能力（百度 / 字节 / 阿里）+ 早期创业公司（如数说故事探索）
大厂自研：NVIDIA Omniverse、Microsoft、Google 都有内部合成数据能力

标志性事件

2025-03：2025-03-NVIDIA收购Gretel AI — $3.2 亿+，合成数据领域至今最大并购
2024-11：SAS 收购 Hazy
2024：Gartner 把合成数据列为"AI 中长期 Top 10 战略技术"

风险

"模型崩溃" — 用合成数据训练，再用结果生成新合成数据，反复几代可能质量退化
数据偏差放大 — 生成模型本身的偏见会被放大
质量天花板 — 与真实数据混合比例需精细调控

演进 / 市场规模

2024 全球市场：$25-35 亿，CAGR 35%+
2029E 合成表格数据：$67.3 亿
2035E：$124.5 亿（Nester）

相关概念

差分隐私（合成数据的隐私保证基础）
数据引擎 / 数据标注（替代关系）
高质量数据枯竭（合成数据爆发的根本驱动）

∈ belongs_to::4-01-数据引擎

反向引用链接到本页

反向引用 18

按引用量 ↓

… > Epoch AI 等研究机构的核心预测：**到 2026 年左右，用于大模型训练的高质量文本数据将基本被消耗殆尽**。这一"数据荒"危机正在深刻重塑数据引擎产业格局，推动合成数据从"补充手段"升级为"核心供给"。 ## 核心预测 Epoch AI 研究（2022 起，多次更新）指出： - 全球高质量文本数据（书籍、学术论文、新闻、维基百科等高质量来源）总量约 **9 万亿 tokens** …

… - 大模型训练数据需求按当前速度（每代 10x）增长，到 **2026 年** 将耗尽 - 多模态数据（图像、视频、音频）更早面临结构化数据瓶颈 ## 五大应对路径 1. **合成数据爆发** — 合成数据占比 Gartner 预测 2024 已达 60%，2030 绝大多数训练数据将合成 2. **版权数据资产化** — 大模型公司从"灰色爬取"转向"合规授权"，[[Reddit]] / [[Getty Images]] / [[阅文集团 …

… - **悲观派**：高质量数据（书籍、学术、新闻）增长慢，大模型增长快，缺口扩大 - **务实派**：测试时计算 + 合成数据可缓解，但不能完全解决 ## 相关概念 - 合成数据 / [[版权数据]] - [[Pre-training]] / [[Scale AI]] ∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →

… - **第三代（2022-2024）**：[[Auto-labeling]] + 人工审核混合，标注员转向"质量审核 + 边缘案例" - **第四代（2025+）**：与合成数据融合，[[RLAIF]] 用 AI 替代部分人类标注 ## 主要玩家 - **国际**：[[Scale AI]]（绝对龙头）/ [[Labelbox]] / [[Appen]] …

… 2024-05：7 个国家级数据标注基地（成都、沈阳、合肥、长沙、海口、保定、大同） ## 相关概念 - [[RLHF]] / [[DPO]] / [[RLAIF]] - [[Auto-labeling]] - [[数据引擎]] - 合成数据（替代品） ∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →

… - **版权方**：希望最大化授权收入 - **诉讼是议价工具**：纽约时报诉 OpenAI 推动 OpenAI 与多家出版商签约 - **合成数据是博弈杠杆**：版权方议价过高，AI 公司会转向合成数据## 相关概念 - [[数据引擎]] / [[版权数据]] / [[数据治理]] - [[合成数据]]（替代品） ∈ belongs_to::[[4-01-数据引擎]] …

… - **合成数据是博弈杠杆**：版权方议价过高，AI 公司会转向 [[合成数据]] ## 相关概念 - [[数据引擎]] / [[版权数据]] / [[数据治理]] - 合成数据（替代品） ∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →

… - **退出路径多元化** — 不只是被 AI 公司收购，传统数据分析厂商也是潜在买家 - **[[MOSTLY AI]] / [[Syntho]] / [[YData]]** 等同业公司估值预期得到强化 ## 关联实体 - 合成数据 — 标的赛道 - [[Gretel AI]] — 同赛道，2025-03 被 NVIDIA 收购 - [[MOSTLY AI]] / [[Syntho]] / [[YData]] — 同赛道独立公司 …

查看原文 →

… ### 对 AI 训练数据生态 - **从灰色爬取到合规授权** — 标志大模型训练数据进入"必须付费"时代 - **数据成本提升** — AI 公司训练成本增加，推动合成数据替代需求 ### 估值参照 - Reddit $6000 万/年 + IPO 估值约 $50 亿（开盘） - 对照 [[Getty Images]]（市值 $15 亿）/ [[Shutterstock]]（合并体 $37 亿）— Re …

查看原文 →

… - Gretel 对价 $3.2 亿对应被收购前约 80 名员工，单员工估值 $400 万，反映合成数据公司估值溢价 ## 关联实体 - [[NVIDIA]] — 收购方 - [[Gretel AI]] — 被收购方 - 合成数据 — 标的所属赛道 - [[MOSTLY AI]] / [[Syntho]] / [[YData]] — 同赛道受影响公司 ∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →

… 2. **数据标注技术**：[[数据标注]] / [[Auto-labeling]]（AI 预标注 + 人工审核混合）/ 3D 点云标注 / 多模态标注 3. **合成数据生成**：合成数据（LLM 文本合成 / 扩散模型图像视频 / GAN VAE 表格 / 物理引擎 3D 场景） 4. **数据基础设施**：[[数据湖仓]] / [[Lakehouse]] / [[Delta Lake]] / [[Apache Spark …

查看原文 →

… - **2025+**：与 [[RLAIF]] 融合，部分场景实现端到端自动化 ## 相关概念 - [[数据标注]] / [[RLAIF]] - [[Scale AI]] / [[Labelbox]]（主要厂商） - 合成数据（相邻方向） ∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →

… - **[[Scale AI]] 客户之一** — 与 OpenAI / Meta / 美国国防部并列的头部数据标注客户 - **历史合作 [[Appen]]** — Appen 早期客户 - **自研合成数据能力** — 补充 Azure / OpenAI 训练 - 通过持有 [[OpenAI]] 战略股份，间接受益于 OpenAI 在数据引擎层（包括与 Scale AI、Reddit 等的合作）的版权数据资产化进程 …

查看原文 →

… - **2025+**：合成数据 / 多模态扩展 / 测试时计算成为应对路径 ## 相关概念 - [[SFT]] / [[RLHF]]（后续训练阶段） - [[高质量数据枯竭]]（核心瓶颈） - [[版权数据]] / 合成数据（数据来源） ∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →

… - **[[Scale AI]]** — 把 RLAIF 与 RLHF 结合做混合数据服务 ## 相关概念 - [[RLHF]] / [[DPO]] / Constitutional AI - [[Auto-labeling]] / 合成数据∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →

… - **效用 - 隐私权衡** — ε 越小数据越没用 - **实现复杂** — 算法设计需要专家 - **可解释性低** — 难以向业务用户解释 ## 相关概念 - [[联邦学习]] / 合成数据- [[数据治理]] ∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →

… *2026E**：高质量真实数据耗尽（Epoch AI 预测），合成数据占比超 60% ## 相关概念 - [[数据标注]] / [[Auto-labeling]] - [[RLHF]] / [[DPO]] / [[RLAIF]] - 合成数据 / [[差分隐私]] - [[数据湖仓]] / [[Lakehouse]] / [[数据治理]] - [[版权数据]] / [[高质量数据枯竭]] ∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →

… ## 相关概念 - [[数据血缘]] / [[数据湖仓]] / [[Lakehouse]] - [[联邦学习]] / [[差分隐私]] - [[版权数据]] / 合成数据（合规视角下相关） ∈ belongs_to::[[4-01-数据引擎]] ## 已废弃叙述 <details> <summary>2026-05-29 数字订正：Collibra 估值 $57 亿 → 约 $52.5 亿（小数点丢失致 …

查看原文 →