AI产业链地图·知识库 Auto-labeling · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/Auto-labeling

更新 2026·06·17

概念技术 / 术语

Auto-labeling

自动标注 · 半自动标注 · AI 预标注 · Model-assisted Labeling

传统纯人工标注 → AI 预标注 + 人工审核混合：

Auto-labeling CONCEPT · 概念

首次提出: 2020
关键参与方: [[Scale AI]] · [[Labelbox]]
反向引用: 7 处 · 来自 5 页

归属数据标注自动化AI数据第四层

Auto-labeling（自动标注）

基于预训练模型 / 大语言模型对原始数据进行 AI 预标注，然后由人工标注员只做质量审核和边缘案例处理的混合工作流。大幅提升数据标注效率，是数据标注行业从劳动密集向技术密集转型的核心技术。

是什么

传统纯人工标注 → AI 预标注 + 人工审核混合：

AI 预标注：用 GPT-4 / Claude / 自训练的领域模型对原始数据先打一遍标签
人工审核：标注员只审核 AI 不确定的部分，或抽样检查
主动学习闭环：把人工纠正的样本反馈给 AI 预标注模型，迭代提升精度

效率提升

通用文本场景：5-10x 速度提升
图像分类：3-5x
3D 点云：2-4x（受限于 3D 模型能力）

主要玩家

Scale AI — 行业标杆，自研预标注模型 + 标注员体系
Labelbox Model Foundry — 直接调用 GPT-4 / Claude / Gemini 做预标注
海天瑞声 / 倍赛科技 — 中国主流厂商均已引入

在 AI 产业链中的角色

行业集中度提升催化剂 — 拥有强大自动化工具的平台获得成本和效率优势
纯人力标注工场利润压缩 — 没有 AI 工具的小厂面临生存压力
标注员角色转变 — 从"标注执行"转向"质量审核 + 边缘案例处理"，对标注员专业度要求提升

演进

2018-2020：早期预标注模型（CNN + 启发式）
2022 后：GPT-3.5 / GPT-4 引入，预标注精度跃升
2024：多模态 Foundation Model 用于图像 / 视频预标注
2025+：与 RLAIF 融合，部分场景实现端到端自动化

相关概念

数据标注 / RLAIF
Scale AI / Labelbox（主要厂商）
合成数据（相邻方向）

∈ belongs_to::4-01-数据引擎

反向引用链接到本页

反向引用 7

按引用量 ↓

… 练的"打地基"环节**：从预训练到 [[SFT]] 到 [[RLHF]]，每个阶段都需要不同形式的标注数据 - **质量决定模型上限**：在算力 / 算法相对开放的今天，数据质量成为大模型差异化的核心 - **从劳动密集向技术密集转型**：Auto-labeling + 人工审核混合模式取代纯人工标注 ## 技术演进 - **第一代（2010-2017）**：纯人工标注，依赖众包平台（[[Appen]]、Amazon Mechanical Turk） …

… - **第二代（2018-2021）**：标注工具化、SaaS 化（[[Labelbox]]、[[Scale AI]] 早期） - **第三代（2022-2024）**：Auto-labeling + 人工审核混合，标注员转向"质量审核 + 边缘案例" - **第四代（2025+）**：与 [[合成数据]] 融合，[[RLAIF]] 用 AI 替代部分人类标注 …

… - 2024-05：7 个国家级数据标注基地（成都、沈阳、合肥、长沙、海口、保定、大同） ## 相关概念 - [[RLHF]] / [[DPO]] / [[RLAIF]] - Auto-labeling- [[数据引擎]] - [[合成数据]]（替代品） ∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →

… 1. **预训练与对齐**：[[Pre-training]] / [[SFT]] / [[RLHF]] / [[DPO]] / [[RLAIF]] 2. **数据标注技术**：[[数据标注]] / Auto-labeling（AI 预标注 + 人工审核混合）/ 3D 点云标注 / 多模态标注 3. **合成数据生成**：[[合成数据]]（LLM 文本合成 / 扩散模型图像视频 / GAN VAE 表格 / 物理引擎 3D 场景） …

查看原文 →

… - **[[Scale AI]]** — 把 RLAIF 与 RLHF 结合做混合数据服务 ## 相关概念 - [[RLHF]] / [[DPO]] / Constitutional AI - Auto-labeling / [[合成数据]] ∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →

… - **2025**：合成 SFT 数据兴起，但仍需人工筛选高质量样本 ## 相关概念 - [[Pre-training]] / [[RLHF]] / [[DPO]] - [[数据标注]] / Auto-labeling∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →

… 03**：[[2025-03-NVIDIA收购Gretel AI]]，合成数据成为芯片巨头战略资产 - **2026E**：高质量真实数据耗尽（Epoch AI 预测），合成数据占比超 60% ## 相关概念 - [[数据标注]] / Auto-labeling- [[RLHF]] / [[DPO]] / [[RLAIF]] - [[合成数据]] / [[差分隐私]] - [[数据湖仓]] / [[Lakehouse]] / [[数据治理]] …

查看原文 →