数据标注(Data Annotation / Data Labeling)
通过人工或半自动化方式对原始数据进行 分类、标记、质量评估和偏好排序,使数据满足 AI 模型训练的格式和质量要求。是数据引擎产业的核心环节之一。
定义
把原始非结构化数据(图像、文本、视频、3D 点云、音频)打上结构化标签,让模型可以学习。典型任务:
- 图像分类:把图片标为"猫"或"狗"
- 目标检测:在图片上画框标出物体
- 语义分割:像素级标注
- 3D 点云标注:自动驾驶激光雷达数据标注
- 文本实体识别(NER):在文本中标出人名、地名、公司名
- 意图分类:用户对话意图标注
- 偏好排序(RLHF):对多个模型回答按人类偏好排序
在 AI 产业链中的角色
- 大模型训练的"打地基"环节:从预训练到 SFT 到 RLHF,每个阶段都需要不同形式的标注数据
- 质量决定模型上限:在算力 / 算法相对开放的今天,数据质量成为大模型差异化的核心
- 从劳动密集向技术密集转型:Auto-labeling + 人工审核混合模式取代纯人工标注
技术演进
- 第一代(2010-2017):纯人工标注,依赖众包平台(Appen、Amazon Mechanical Turk)
- 第二代(2018-2021):标注工具化、SaaS 化(Labelbox、Scale AI 早期)
- 第三代(2022-2024):Auto-labeling + 人工审核混合,标注员转向"质量审核 + 边缘案例"
- 第四代(2025+):与 合成数据 融合,RLAIF 用 AI 替代部分人类标注
主要玩家
行业格局
政策催化
- 2025-01:中国四部委《促进数据标注产业高质量发展实施意见》
- 2024-05:7 个国家级数据标注基地(成都、沈阳、合肥、长沙、海口、保定、大同)
相关概念
∈ belongs_to::4-01-数据引擎