AI产业链地图·知识库 4-01 数据引擎 · 子行业
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/子行业/4-01 数据引擎
第四层 · 更新 2026·06·17
子行业 第四层 hub

4-01 数据引擎

数据引擎 · AI 训练数据 · Data Engine · AI Training Data Supply

第四层(AI 基础模型)的最上游,是大模型 Pre-training / SFT / RLHF 三阶段的数据供给基础。全球数据标注由 Scale AI(估值 $290 亿)一家独大,数据治理由 Databricks(估值 $1340 亿)/ Snowflake(市值 $850 亿)双寡头主导;中国 A 股稀缺标的 海天瑞声(688787.SH)享受溢价,视觉中国 / 阅文集团 等版权方在 …

4-01 L4 HUB
所属层
第四层 · AI 基础模型
子行业 ID
4-01
反向引用
100 处 · 来自 87
归属 第四层 · AI 基础模型数据引擎数据标注合成数据数据治理版权数据RLHF第四层

4-01 数据引擎

AI 模型训练的数据供给层 — 把原始非结构化信息转化为可供大模型学习的训练语料,决定 AI 模型质量上限。涵盖版权数据 / 数据标注 / 合成数据 / 数据治理四大细分板块。

一句话定位

第四层(AI 基础模型)的最上游,是大模型 Pre-training / SFT / RLHF 三阶段的数据供给基础。全球数据标注由 Scale AI(估值 $290 亿)一家独大,数据治理由 Databricks(估值 $1340 亿)/ Snowflake(市值 $850 亿)双寡头主导;中国 A 股稀缺标的 海天瑞声(688787.SH)享受溢价,视觉中国 / 阅文集团 等版权方在 AI 时代议价权快速提升。全球市场 2024 约 $140-160 亿(CAGR 25-30%)/ 中国数据标注 2026E 突破 ¥132 亿

市场规模

维度 数据 来源
全球 AI 训练数据服务(2024) $140-160 亿 行业 Grand View Research
全球 AI 训练数据服务 CAGR 25-30% 2024-2030E
全球 AI 训练数据服务(2030E) $400 亿+
全球合成数据市场(2024) $25-35 亿 CAGR 35%+
全球合成数据(2035E) $124.5 亿 Nester
AI 训练合成数据占比 60% 2024 Gartner
全球数据治理平台市场 $450 亿 2025
中国数据标注(2023) ¥60.8 亿 中商情报网
中国数据标注(2024) ¥77.3 亿(+27%) 中商情报网
中国数据标注(2026E) ¥132 亿
中国数据标注(2029E) ¥200 亿+
中国 AI 基础数据服务(2024) ¥58 亿 艾瑞
中国 AI 基础数据服务(2028E) ¥170 亿(CAGR 30.84%) 艾瑞
国家级数据标注基地 7 城(标注 17,282 TB) 2024 国家数据局

全球竞争格局

数据标注 / RLHF

  • Scale AI 绝对龙头(未上市,估值 $290 亿,2024 营收 $8.7 亿、2025E $20 亿,毛利 50-60%)— 与 OpenAI / Google / Meta / 美国国防部深度绑定
  • Labelbox — 美国数据标注平台(未上市,估值 $10 亿)
  • Appen(APX.AX)— 澳交所,高峰期 5 亿澳元营收,被 Scale AI 挤压持续下滑至 2 亿澳元

合成数据

数据治理 / 平台(双寡头)

  • Databricks $1340 亿(未上市,ARR $54 亿、AI 产品 $14 亿,预期 2026 IPO)
  • Snowflake $850 亿(SNOW.US,产品收入 $35 亿)
  • Informatica(INFA.US)— $90 亿,数据治理与集成
  • Collibra — 数据治理 + 数据目录(未上市,估值 $57 亿)

版权数据 / IP 资产

中国玩家

A 股上市

  • 海天瑞声 ★★★★★(688787.SH,A 股 AI 数据第一股,2024 营收 ¥2.37 亿 +39.5%,200+ 语种全球覆盖)
  • 星环科技 ★★★★☆(688031.SH,对标 Databricks 国产替代,市值 ¥90 亿)
  • 拓尔思 ★★★☆☆(300229.SZ,DATA+AI 战略,与 DeepSeek 数据合作,市值 ¥110 亿)
  • 视觉中国 ★★★★☆(000681.SZ,多模态视觉版权龙头,市值 ¥120 亿)
  • 中文在线 ★★★☆☆(300364.SZ,网络文学 IP,市值 ¥80 亿)

港股

  • 阅文集团 ★★★★☆(0772.HK,腾讯系网络文学 IP 库 1500 万部作品,市值 350 亿港元)

拟 IPO / 未上市

  • 倍赛科技 ★★★★☆(2026-27 A 股/北交所,自研工具 + 全球团队,估值 ¥15-25 亿)
  • 百分点科技 ★★★☆☆(2026-27 科创板,数据治理 + AI,估值 ¥20-30 亿)
  • 整数智能 ★★★☆☆(多模态标注新锐,2027-28 北交所)
  • 曼孚科技 ★★★☆☆(自动驾驶 3D 点云标注,2027-28 北交所)
  • 龙猫数据 ★★★☆☆(众包数据标注平台)
  • 智领云 ★★☆☆☆(数据中台 + 治理,2028+ 北交所)
  • 数说故事 ★★★☆☆(消费品营销 + 合成数据)

核心技术维度

  1. 预训练与对齐Pre-training / SFT / RLHF / DPO / RLAIF
  2. 数据标注技术数据标注 / Auto-labeling(AI 预标注 + 人工审核混合)/ 3D 点云标注 / 多模态标注
  3. 合成数据生成合成数据(LLM 文本合成 / 扩散模型图像视频 / GAN VAE 表格 / 物理引擎 3D 场景)
  4. 数据基础设施数据湖仓 / Lakehouse / Delta Lake / Apache Spark
  5. 数据治理数据治理 / 数据血缘 / 数据版本管理 / 偏差检测 / 去重去污染
  6. 隐私增强计算联邦学习 / 差分隐私 / 可信执行环境
  7. 数据稀缺性危机高质量数据枯竭(Epoch AI 预测 2026 年高质量文本数据耗尽)

上下游关系

↑ up::3-01-云计算与智算平台 — 数据基础设施承载于云端 ↑ up::3-05-AI存储系统 — 数据湖仓底层存储依托 ↓ down::4-02-模型工厂 — 训练数据直接消费方 ↓ down::4-03-模型生态与工具链 — 数据→模型→应用链路下游 ⚔ competitor::4-04-模型部署与优化 — 部分边界(数据增广 / 在线学习) ∈ belongs_to::第四层-模型

关键趋势

  1. 高质量真实数据枯竭 → 合成数据爆发 — Epoch AI 预测 2026 年高质量文本数据耗尽;Gartner 2024 年 AI 训练合成数据占比已达 60%,2030 年绝大多数将是合成数据;2025-03-NVIDIA收购Gretel AI 是标志性事件
  2. 数据标注从劳动密集 → AI 辅助自动化 — Scale AI 等头部用大模型预标注 + 人工审核混合模式,标注员角色从"执行"转向"质量审核 + 边缘案例处理",行业集中度提升
  3. 版权数据资产化与定价权崛起2024-Reddit与Google数据授权协议 $6000 万/年是标杆,Getty Images / 视觉中国 / 阅文集团 等优质版权方有望开辟高毛利第二曲线
  4. 数据合规与治理成全球监管焦点 — 欧盟 AI Act + 中国《数据安全法》+ 美国州隐私法密集出台,数据血缘 / 隐私计算 / 差分隐私需求激增
  5. 中国政策红利 + 地域集聚 — 四部委 2025-01 政策 + 7 国家级数据标注基地,省会城市为中心辐射周边的产业集群化,海天瑞声率先布局保定/长沙抢先

资本运作要点

高吸引力被收购

  • 海天瑞声 ★★★★☆(A 股稀缺标的,潜在买家百度/字节/华为/腾讯)
  • 视觉中国 ★★★★☆(多模态视觉版权 AI 重估)
  • 阅文集团 ★★★★☆(中文 IP 规模最大,腾讯系协同释放)
  • 倍赛科技 ★★★★☆(未上市差异化标的)
  • 星环科技 ★★★☆☆(国产数据治理,央企潜在收购方)

主动收购方

  • 腾讯控股 ★★★★★(已控股阅文,可能继续收购)
  • 百度集团 ★★★★★(数据需求迫切)
  • 阿里巴巴 ★★★★☆(更可能用投资 + 合作)
  • 华为 ★★★★☆(盘古数据自主可控)
  • 科大讯飞 ★★★★☆(语音数据定向并购)

高确定性 IPO

  • Databricks 美股 ★★★★★(2026,$1340 亿)
  • 倍赛科技 A 股/北交所 ★★★★☆(2026-27,¥15-25 亿)
  • 百分点科技 科创板 ★★★☆☆(2026-27,¥20-30 亿)

关键事件

关联完整深度报告

打开原始深度报告