AI产业链地图·知识库 数据标注 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/数据标注
更新 2026·06·17
概念 技术 / 术语

数据标注

Data Annotation · Data Labeling · Labeling

把原始非结构化数据(图像、文本、视频、3D 点云、音频)打上结构化标签,让模型可以学习。典型任务:

数据标注 CONCEPT · 概念
首次提出
2010
关键参与方
[[Scale AI]] · [[海天瑞声]] · [[Labelbox]] · [[Appen]]
反向引用
8 处 · 来自 7
归属 数据标注AI数据第四层

数据标注(Data Annotation / Data Labeling)

通过人工或半自动化方式对原始数据进行 分类、标记、质量评估和偏好排序,使数据满足 AI 模型训练的格式和质量要求。是数据引擎产业的核心环节之一。

定义

把原始非结构化数据(图像、文本、视频、3D 点云、音频)打上结构化标签,让模型可以学习。典型任务:

  • 图像分类:把图片标为"猫"或"狗"
  • 目标检测:在图片上画框标出物体
  • 语义分割:像素级标注
  • 3D 点云标注:自动驾驶激光雷达数据标注
  • 文本实体识别(NER):在文本中标出人名、地名、公司名
  • 意图分类:用户对话意图标注
  • 偏好排序RLHF):对多个模型回答按人类偏好排序

在 AI 产业链中的角色

  • 大模型训练的"打地基"环节:从预训练到 SFTRLHF,每个阶段都需要不同形式的标注数据
  • 质量决定模型上限:在算力 / 算法相对开放的今天,数据质量成为大模型差异化的核心
  • 从劳动密集向技术密集转型Auto-labeling + 人工审核混合模式取代纯人工标注

技术演进

  • 第一代(2010-2017):纯人工标注,依赖众包平台(Appen、Amazon Mechanical Turk)
  • 第二代(2018-2021):标注工具化、SaaS 化(LabelboxScale AI 早期)
  • 第三代(2022-2024)Auto-labeling + 人工审核混合,标注员转向"质量审核 + 边缘案例"
  • 第四代(2025+):与 合成数据 融合,RLAIF 用 AI 替代部分人类标注

主要玩家

行业格局

  • 全球Scale AI 一家独大,$290 亿估值远超第二梯队
  • 中国:格局分散,海天瑞声 是 A 股稀缺标的但营收规模小

政策催化

  • 2025-01:中国四部委《促进数据标注产业高质量发展实施意见》
  • 2024-05:7 个国家级数据标注基地(成都、沈阳、合肥、长沙、海口、保定、大同)

相关概念

∈ belongs_to::4-01-数据引擎