AI产业链地图·知识库 合成数据 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/合成数据
更新 2026·06·17
概念 技术 / 术语

合成数据

Synthetic Data · 人工合成数据

不是从真实世界采集,而是用算法/模型生成的训练数据。保留真实数据的统计特征但不包含原始记录,因此天然满足隐私合规要求。

合成数据 CONCEPT · 概念
首次提出
2014
关键参与方
[[Gretel AI]] · [[MOSTLY AI]] · [[NVIDIA]]
反向引用
18 处 · 来自 14
归属 合成数据AI数据第四层

合成数据(Synthetic Data)

利用生成式 AI、统计模型或规则引擎 人工创造 的训练数据。在 高质量数据枯竭 背景下,已从"补充手段"升级为大模型训练的"核心供给"。Gartner 预测 2024 年 AI 训练中合成数据占比已达 60%,2030 年绝大多数训练数据将是合成数据。

定义

不是从真实世界采集,而是用算法/模型生成的训练数据。保留真实数据的统计特征但不包含原始记录,因此天然满足隐私合规要求。

主要技术路径

  • 基于 LLM 的文本合成 — 用 GPT-4 / Claude 生成对话、问答、文章
  • 基于扩散模型的图像/视频合成 — Stable Diffusion / Sora 等
  • 基于 GAN/VAE 的表格数据合成Gretel AI / MOSTLY AI 主流
  • 基于物理引擎的 3D 场景合成 — NVIDIA Omniverse、UE5(自动驾驶训练数据)

为什么关键

  • 高质量真实数据枯竭 — Epoch AI 预测 2026 年高质量文本数据耗尽
  • 隐私合规刚需 — GDPR / HIPAA 等约束下,金融、医疗等行业不能直接用真实数据
  • 稀有场景数据 — 自动驾驶的边缘案例(碰撞、暴雨)真实采集成本高,合成可批量生成
  • 多样性补充 — 真实数据可能有偏(性别、地域、种族),合成数据可平衡

主要玩家

  • 国际Gretel AI(已被 NVIDIA 收购)/ MOSTLY AI / Syntho / YData / Hazy(已被 SAS 收购)
  • 中国:起步较晚,多为大厂内部能力(百度 / 字节 / 阿里)+ 早期创业公司(如 数说故事 探索)
  • 大厂自研NVIDIA Omniverse、Microsoft、Google 都有内部合成数据能力

标志性事件

  • 2025-032025-03-NVIDIA收购Gretel AI — $3.2 亿+,合成数据领域至今最大并购
  • 2024-11:SAS 收购 Hazy
  • 2024:Gartner 把合成数据列为"AI 中长期 Top 10 战略技术"

风险

  • "模型崩溃" — 用合成数据训练,再用结果生成新合成数据,反复几代可能质量退化
  • 数据偏差放大 — 生成模型本身的偏见会被放大
  • 质量天花板 — 与真实数据混合比例需精细调控

演进 / 市场规模

  • 2024 全球市场:$25-35 亿,CAGR 35%+
  • 2029E 合成表格数据:$67.3 亿
  • 2035E:$124.5 亿(Nester)

相关概念

∈ belongs_to::4-01-数据引擎