AI产业链地图·知识库 Auto-labeling · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/Auto-labeling
更新 2026·06·17
概念 技术 / 术语

Auto-labeling

自动标注 · 半自动标注 · AI 预标注 · Model-assisted Labeling

传统纯人工标注 → AI 预标注 + 人工审核混合:

Auto-labeling CONCEPT · 概念
首次提出
2020
关键参与方
[[Scale AI]] · [[Labelbox]]
反向引用
7 处 · 来自 5
归属 数据标注自动化AI数据第四层

Auto-labeling(自动标注)

基于预训练模型 / 大语言模型对原始数据进行 AI 预标注,然后由人工标注员只做质量审核和边缘案例处理的混合工作流。大幅提升数据标注效率,是 数据标注 行业从劳动密集向技术密集转型的核心技术。

是什么

传统纯人工标注 → AI 预标注 + 人工审核混合:

  1. AI 预标注:用 GPT-4 / Claude / 自训练的领域模型对原始数据先打一遍标签
  2. 人工审核:标注员只审核 AI 不确定的部分,或抽样检查
  3. 主动学习闭环:把人工纠正的样本反馈给 AI 预标注模型,迭代提升精度

效率提升

  • 通用文本场景:5-10x 速度提升
  • 图像分类:3-5x
  • 3D 点云:2-4x(受限于 3D 模型能力)

主要玩家

  • Scale AI — 行业标杆,自研预标注模型 + 标注员体系
  • Labelbox Model Foundry — 直接调用 GPT-4 / Claude / Gemini 做预标注
  • 海天瑞声 / 倍赛科技 — 中国主流厂商均已引入

在 AI 产业链中的角色

  • 行业集中度提升催化剂 — 拥有强大自动化工具的平台获得成本和效率优势
  • 纯人力标注工场利润压缩 — 没有 AI 工具的小厂面临生存压力
  • 标注员角色转变 — 从"标注执行"转向"质量审核 + 边缘案例处理",对标注员专业度要求提升

演进

  • 2018-2020:早期预标注模型(CNN + 启发式)
  • 2022 后:GPT-3.5 / GPT-4 引入,预标注精度跃升
  • 2024:多模态 Foundation Model 用于图像 / 视频预标注
  • 2025+:与 RLAIF 融合,部分场景实现端到端自动化

相关概念

∈ belongs_to::4-01-数据引擎