Auto-labeling(自动标注)
基于预训练模型 / 大语言模型对原始数据进行 AI 预标注,然后由人工标注员只做质量审核和边缘案例处理的混合工作流。大幅提升数据标注效率,是 数据标注 行业从劳动密集向技术密集转型的核心技术。
是什么
传统纯人工标注 → AI 预标注 + 人工审核混合:
- AI 预标注:用 GPT-4 / Claude / 自训练的领域模型对原始数据先打一遍标签
- 人工审核:标注员只审核 AI 不确定的部分,或抽样检查
- 主动学习闭环:把人工纠正的样本反馈给 AI 预标注模型,迭代提升精度
效率提升
- 通用文本场景:5-10x 速度提升
- 图像分类:3-5x
- 3D 点云:2-4x(受限于 3D 模型能力)
主要玩家
- Scale AI — 行业标杆,自研预标注模型 + 标注员体系
- Labelbox Model Foundry — 直接调用 GPT-4 / Claude / Gemini 做预标注
- 海天瑞声 / 倍赛科技 — 中国主流厂商均已引入
在 AI 产业链中的角色
- 行业集中度提升催化剂 — 拥有强大自动化工具的平台获得成本和效率优势
- 纯人力标注工场利润压缩 — 没有 AI 工具的小厂面临生存压力
- 标注员角色转变 — 从"标注执行"转向"质量审核 + 边缘案例处理",对标注员专业度要求提升
演进
- 2018-2020:早期预标注模型(CNN + 启发式)
- 2022 后:GPT-3.5 / GPT-4 引入,预标注精度跃升
- 2024:多模态 Foundation Model 用于图像 / 视频预标注
- 2025+:与 RLAIF 融合,部分场景实现端到端自动化
相关概念
∈ belongs_to::4-01-数据引擎