AI产业链地图·知识库 数据标注 · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/数据标注

更新 2026·06·17

概念技术 / 术语

数据标注

Data Annotation · Data Labeling · Labeling

把原始非结构化数据（图像、文本、视频、3D 点云、音频）打上结构化标签，让模型可以学习。典型任务：

数据标注 CONCEPT · 概念

首次提出: 2010
关键参与方: [[Scale AI]] · [[海天瑞声]] · [[Labelbox]] · [[Appen]]
反向引用: 8 处 · 来自 7 页

归属数据标注AI数据第四层

数据标注（Data Annotation / Data Labeling）

通过人工或半自动化方式对原始数据进行 分类、标记、质量评估和偏好排序，使数据满足 AI 模型训练的格式和质量要求。是数据引擎产业的核心环节之一。

定义

把原始非结构化数据（图像、文本、视频、3D 点云、音频）打上结构化标签，让模型可以学习。典型任务：

图像分类：把图片标为"猫"或"狗"
目标检测：在图片上画框标出物体
语义分割：像素级标注
3D 点云标注：自动驾驶激光雷达数据标注
文本实体识别（NER）：在文本中标出人名、地名、公司名
意图分类：用户对话意图标注
偏好排序（RLHF）：对多个模型回答按人类偏好排序

在 AI 产业链中的角色

大模型训练的"打地基"环节：从预训练到 SFT 到 RLHF，每个阶段都需要不同形式的标注数据
质量决定模型上限：在算力 / 算法相对开放的今天，数据质量成为大模型差异化的核心
从劳动密集向技术密集转型：Auto-labeling + 人工审核混合模式取代纯人工标注

技术演进

第一代（2010-2017）：纯人工标注，依赖众包平台（Appen、Amazon Mechanical Turk）
第二代（2018-2021）：标注工具化、SaaS 化（Labelbox、Scale AI 早期）
第三代（2022-2024）：Auto-labeling + 人工审核混合，标注员转向"质量审核 + 边缘案例"
第四代（2025+）：与合成数据融合，RLAIF 用 AI 替代部分人类标注

主要玩家

国际：Scale AI（绝对龙头）/ Labelbox / Appen
中国：海天瑞声（A 股唯一）/ 拓尔思 / 倍赛科技 / 整数智能 / 曼孚科技 / 龙猫数据

行业格局

全球：Scale AI 一家独大，$290 亿估值远超第二梯队
中国：格局分散，海天瑞声是 A 股稀缺标的但营收规模小

政策催化

2025-01：中国四部委《促进数据标注产业高质量发展实施意见》
2024-05：7 个国家级数据标注基地（成都、沈阳、合肥、长沙、海口、保定、大同）

相关概念

∈ belongs_to::4-01-数据引擎

反向引用链接到本页

反向引用 8

按引用量 ↓

… # Auto-labeling（自动标注） > 基于预训练模型 / 大语言模型对原始数据进行 **AI 预标注**，然后由人工标注员只做质量审核和边缘案例处理的混合工作流。大幅提升数据标注效率，是数据标注行业从劳动密集向技术密集转型的核心技术。 ## 是什么传统纯人工标注 → AI 预标注 + 人工审核混合： 1. **AI 预标注**：用 GPT-4 / Claude / 自训练的领域模型对原始数据先打一遍标签 …

… - **2024**：多模态 Foundation Model 用于图像 / 视频预标注 - **2025+**：与 [[RLAIF]] 融合，部分场景实现端到端自动化 ## 相关概念 - 数据标注 / [[RLAIF]] - [[Scale AI]] / [[Labelbox]]（主要厂商） - [[合成数据]]（相邻方向） ∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →

… - [[海天瑞声]] / [[拓尔思]] / [[倍赛科技]] — 主要受益方 - [[2025-01-四部委促进数据标注产业实施意见]] — 后续政策 - 数据标注 — 标的赛道 ∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →

… - [[海天瑞声]] / [[拓尔思]] / [[倍赛科技]] / [[整数智能]] — 直接受益方 - [[2024-05-国家数据标注7基地设立]] — 配套基础设施事件 - 数据标注 — 标的赛道 ∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →

… 1. **预训练与对齐**：[[Pre-training]] / [[SFT]] / [[RLHF]] / [[DPO]] / [[RLAIF]] 2. **数据标注技术**：数据标注 / [[Auto-labeling]]（AI 预标注 + 人工审核混合）/ 3D 点云标注 / 多模态标注 3. **合成数据生成**：[[合成数据]]（LLM 文本合成 / 扩散模型图像视频 / GAN VAE 表格 / 物理引擎 3D …

查看原文 →

… - **2025**：合成 SFT 数据兴起，但仍需人工筛选高质量样本 ## 相关概念 - [[Pre-training]] / [[RLHF]] / [[DPO]] - 数据标注 / [[Auto-labeling]] ∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →

… - **2029E 合成表格数据**：$67.3 亿 - **2035E**：$124.5 亿（Nester） ## 相关概念 - [[差分隐私]]（合成数据的隐私保证基础） - [[数据引擎]] / 数据标注（替代关系） - [[高质量数据枯竭]]（合成数据爆发的根本驱动） ∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →

… - **2025-03**：[[2025-03-NVIDIA收购Gretel AI]]，合成数据成为芯片巨头战略资产 - **2026E**：高质量真实数据耗尽（Epoch AI 预测），合成数据占比超 60% ## 相关概念 - 数据标注 / [[Auto-labeling]] - [[RLHF]] / [[DPO]] / [[RLAIF]] - [[合成数据]] / [[差分隐私]] - [[数据湖仓]] / [[Lakehouse]] / [[数据治理]] …

查看原文 →