合成数据(Synthetic Data)
利用生成式 AI、统计模型或规则引擎 人工创造 的训练数据。在 高质量数据枯竭 背景下,已从"补充手段"升级为大模型训练的"核心供给"。Gartner 预测 2024 年 AI 训练中合成数据占比已达 60%,2030 年绝大多数训练数据将是合成数据。
定义
不是从真实世界采集,而是用算法/模型生成的训练数据。保留真实数据的统计特征但不包含原始记录,因此天然满足隐私合规要求。
主要技术路径
- 基于 LLM 的文本合成 — 用 GPT-4 / Claude 生成对话、问答、文章
- 基于扩散模型的图像/视频合成 — Stable Diffusion / Sora 等
- 基于 GAN/VAE 的表格数据合成 — Gretel AI / MOSTLY AI 主流
- 基于物理引擎的 3D 场景合成 — NVIDIA Omniverse、UE5(自动驾驶训练数据)
为什么关键
- 高质量真实数据枯竭 — Epoch AI 预测 2026 年高质量文本数据耗尽
- 隐私合规刚需 — GDPR / HIPAA 等约束下,金融、医疗等行业不能直接用真实数据
- 稀有场景数据 — 自动驾驶的边缘案例(碰撞、暴雨)真实采集成本高,合成可批量生成
- 多样性补充 — 真实数据可能有偏(性别、地域、种族),合成数据可平衡
主要玩家
- 国际:Gretel AI(已被 NVIDIA 收购)/ MOSTLY AI / Syntho / YData / Hazy(已被 SAS 收购)
- 中国:起步较晚,多为大厂内部能力(百度 / 字节 / 阿里)+ 早期创业公司(如 数说故事 探索)
- 大厂自研:NVIDIA Omniverse、Microsoft、Google 都有内部合成数据能力
标志性事件
- 2025-03:2025-03-NVIDIA收购Gretel AI — $3.2 亿+,合成数据领域至今最大并购
- 2024-11:SAS 收购 Hazy
- 2024:Gartner 把合成数据列为"AI 中长期 Top 10 战略技术"
风险
- "模型崩溃" — 用合成数据训练,再用结果生成新合成数据,反复几代可能质量退化
- 数据偏差放大 — 生成模型本身的偏见会被放大
- 质量天花板 — 与真实数据混合比例需精细调控
演进 / 市场规模
- 2024 全球市场:$25-35 亿,CAGR 35%+
- 2029E 合成表格数据:$67.3 亿
- 2035E:$124.5 亿(Nester)
相关概念
∈ belongs_to::4-01-数据引擎