4-01 数据引擎
AI 模型训练的数据供给层 — 把原始非结构化信息转化为可供大模型学习的训练语料,决定 AI 模型质量上限。涵盖版权数据 / 数据标注 / 合成数据 / 数据治理四大细分板块。
一句话定位
第四层(AI 基础模型)的最上游,是大模型 Pre-training / SFT / RLHF 三阶段的数据供给基础。全球数据标注由 Scale AI(估值 $290 亿)一家独大,数据治理由 Databricks(估值 $1340 亿)/ Snowflake(市值 $850 亿)双寡头主导;中国 A 股稀缺标的 海天瑞声(688787.SH)享受溢价,视觉中国 / 阅文集团 等版权方在 AI 时代议价权快速提升。全球市场 2024 约 $140-160 亿(CAGR 25-30%)/ 中国数据标注 2026E 突破 ¥132 亿。
市场规模
| 维度 | 数据 | 来源 |
|---|---|---|
| 全球 AI 训练数据服务(2024) | $140-160 亿 | 行业 Grand View Research |
| 全球 AI 训练数据服务 CAGR | 25-30% | 2024-2030E |
| 全球 AI 训练数据服务(2030E) | $400 亿+ | — |
| 全球合成数据市场(2024) | $25-35 亿 | CAGR 35%+ |
| 全球合成数据(2035E) | $124.5 亿 | Nester |
| AI 训练合成数据占比 | 60% | 2024 Gartner |
| 全球数据治理平台市场 | $450 亿 | 2025 |
| 中国数据标注(2023) | ¥60.8 亿 | 中商情报网 |
| 中国数据标注(2024) | ¥77.3 亿(+27%) | 中商情报网 |
| 中国数据标注(2026E) | ¥132 亿 | — |
| 中国数据标注(2029E) | ¥200 亿+ | — |
| 中国 AI 基础数据服务(2024) | ¥58 亿 | 艾瑞 |
| 中国 AI 基础数据服务(2028E) | ¥170 亿(CAGR 30.84%) | 艾瑞 |
| 国家级数据标注基地 | 7 城(标注 17,282 TB) | 2024 国家数据局 |
全球竞争格局
数据标注 / RLHF
- Scale AI 绝对龙头(未上市,估值 $290 亿,2024 营收 $8.7 亿、2025E $20 亿,毛利 50-60%)— 与 OpenAI / Google / Meta / 美国国防部深度绑定
- Labelbox — 美国数据标注平台(未上市,估值 $10 亿)
- Appen(APX.AX)— 澳交所,高峰期 5 亿澳元营收,被 Scale AI 挤压持续下滑至 2 亿澳元
合成数据
- Gretel AI — 2025-03-NVIDIA收购Gretel AI 以 $3.2 亿被 NVIDIA 收购
- MOSTLY AI — 金融/医疗合成数据(未上市,估值 $0.5-1 亿)
- Syntho — 荷兰合成数据创业公司
- YData — 数据质量 + 合成数据一体化方案
数据治理 / 平台(双寡头)
- Databricks $1340 亿(未上市,ARR $54 亿、AI 产品 $14 亿,预期 2026 IPO)
- Snowflake $850 亿(SNOW.US,产品收入 $35 亿)
- Informatica(INFA.US)— $90 亿,数据治理与集成
- Collibra — 数据治理 + 数据目录(未上市,估值 $57 亿)
版权数据 / IP 资产
- Reddit(RDDT.US)— 社区文本,$250 亿,2024-Reddit与Google数据授权协议 $6000 万/年
- Getty Images(GETY.US)— 视觉版权 $15 亿,与 NVIDIA 合作 AI 图像
- Shutterstock(SSTK.US)— 与 NVIDIA / Meta 签数据授权
中国玩家
A 股上市
- 海天瑞声 ★★★★★(688787.SH,A 股 AI 数据第一股,2024 营收 ¥2.37 亿 +39.5%,200+ 语种全球覆盖)
- 星环科技 ★★★★☆(688031.SH,对标 Databricks 国产替代,市值 ¥90 亿)
- 拓尔思 ★★★☆☆(300229.SZ,DATA+AI 战略,与 DeepSeek 数据合作,市值 ¥110 亿)
- 视觉中国 ★★★★☆(000681.SZ,多模态视觉版权龙头,市值 ¥120 亿)
- 中文在线 ★★★☆☆(300364.SZ,网络文学 IP,市值 ¥80 亿)
港股
- 阅文集团 ★★★★☆(0772.HK,腾讯系网络文学 IP 库 1500 万部作品,市值 350 亿港元)
拟 IPO / 未上市
- 倍赛科技 ★★★★☆(2026-27 A 股/北交所,自研工具 + 全球团队,估值 ¥15-25 亿)
- 百分点科技 ★★★☆☆(2026-27 科创板,数据治理 + AI,估值 ¥20-30 亿)
- 整数智能 ★★★☆☆(多模态标注新锐,2027-28 北交所)
- 曼孚科技 ★★★☆☆(自动驾驶 3D 点云标注,2027-28 北交所)
- 龙猫数据 ★★★☆☆(众包数据标注平台)
- 智领云 ★★☆☆☆(数据中台 + 治理,2028+ 北交所)
- 数说故事 ★★★☆☆(消费品营销 + 合成数据)
核心技术维度
- 预训练与对齐:Pre-training / SFT / RLHF / DPO / RLAIF
- 数据标注技术:数据标注 / Auto-labeling(AI 预标注 + 人工审核混合)/ 3D 点云标注 / 多模态标注
- 合成数据生成:合成数据(LLM 文本合成 / 扩散模型图像视频 / GAN VAE 表格 / 物理引擎 3D 场景)
- 数据基础设施:数据湖仓 / Lakehouse / Delta Lake / Apache Spark
- 数据治理:数据治理 / 数据血缘 / 数据版本管理 / 偏差检测 / 去重去污染
- 隐私增强计算:联邦学习 / 差分隐私 / 可信执行环境
- 数据稀缺性危机:高质量数据枯竭(Epoch AI 预测 2026 年高质量文本数据耗尽)
上下游关系
↑ up::3-01-云计算与智算平台 — 数据基础设施承载于云端 ↑ up::3-05-AI存储系统 — 数据湖仓底层存储依托 ↓ down::4-02-模型工厂 — 训练数据直接消费方 ↓ down::4-03-模型生态与工具链 — 数据→模型→应用链路下游 ⚔ competitor::4-04-模型部署与优化 — 部分边界(数据增广 / 在线学习) ∈ belongs_to::第四层-模型
关键趋势
- 高质量真实数据枯竭 → 合成数据爆发 — Epoch AI 预测 2026 年高质量文本数据耗尽;Gartner 2024 年 AI 训练合成数据占比已达 60%,2030 年绝大多数将是合成数据;2025-03-NVIDIA收购Gretel AI 是标志性事件
- 数据标注从劳动密集 → AI 辅助自动化 — Scale AI 等头部用大模型预标注 + 人工审核混合模式,标注员角色从"执行"转向"质量审核 + 边缘案例处理",行业集中度提升
- 版权数据资产化与定价权崛起 — 2024-Reddit与Google数据授权协议 $6000 万/年是标杆,Getty Images / 视觉中国 / 阅文集团 等优质版权方有望开辟高毛利第二曲线
- 数据合规与治理成全球监管焦点 — 欧盟 AI Act + 中国《数据安全法》+ 美国州隐私法密集出台,数据血缘 / 隐私计算 / 差分隐私需求激增
- 中国政策红利 + 地域集聚 — 四部委 2025-01 政策 + 7 国家级数据标注基地,省会城市为中心辐射周边的产业集群化,海天瑞声率先布局保定/长沙抢先
资本运作要点
高吸引力被收购
- 海天瑞声 ★★★★☆(A 股稀缺标的,潜在买家百度/字节/华为/腾讯)
- 视觉中国 ★★★★☆(多模态视觉版权 AI 重估)
- 阅文集团 ★★★★☆(中文 IP 规模最大,腾讯系协同释放)
- 倍赛科技 ★★★★☆(未上市差异化标的)
- 星环科技 ★★★☆☆(国产数据治理,央企潜在收购方)
主动收购方
- 腾讯控股 ★★★★★(已控股阅文,可能继续收购)
- 百度集团 ★★★★★(数据需求迫切)
- 阿里巴巴 ★★★★☆(更可能用投资 + 合作)
- 华为 ★★★★☆(盘古数据自主可控)
- 科大讯飞 ★★★★☆(语音数据定向并购)
高确定性 IPO
- Databricks 美股 ★★★★★(2026,$1340 亿)
- 倍赛科技 A 股/北交所 ★★★★☆(2026-27,¥15-25 亿)
- 百分点科技 科创板 ★★★☆☆(2026-27,¥20-30 亿)
关键事件
- 2025-03-NVIDIA收购Gretel AI — $3.2 亿,合成数据领域标志性纵向整合
- 2024-Reddit与Google数据授权协议 — $6000 万/年,版权数据资产化标杆
- 2026-02-Databricks 50亿美元融资 — 估值升至 $1340 亿
- 2024-05-Scale AI Series F 10亿美元融资 — Amazon / Meta 参投
- 2025-01-四部委促进数据标注产业实施意见 — 中国政策红利启动
- 2024-05-国家数据标注7基地设立 — 地域集聚启幕
- 2024-11-SAS收购Hazy — 传统数据分析厂商入场合成数据
关联完整深度报告
→ 打开原始深度报告