AI产业链地图·知识库 SFT · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/SFT

更新 2026·06·17

概念技术 / 术语

SFT

Supervised Fine-Tuning · 监督微调

2. SFT — 中等规模高质量指令数据（万到百万级），让模型学会"服从指令" 3. RLHF / DPO — 偏好数据，让模型学会"按人类偏好回答"

SFT CONCEPT · 概念

首次提出: 2022
关键参与方: [[OpenAI]]
反向引用: 6 处 · 来自 4 页

归属 SFT大模型微调AI数据第四层

SFT（Supervised Fine-Tuning）

监督微调。大模型训练的第二阶段（Pre-training 之后、RLHF 之前）。用高质量"指令 - 回答"对（instruction-response pairs）让 LLM 学会服从指令、按要求回答。

是什么

经典三段式训练：

Pre-training — 海量低质量数据，让模型学会语言模式
SFT — 中等规模高质量指令数据（万到百万级），让模型学会"服从指令"
RLHF / DPO — 偏好数据，让模型学会"按人类偏好回答"

数据需求

规模：典型 1 万 - 100 万条
质量：每条都要人工撰写或精选
多样性：覆盖各类任务（问答、总结、翻译、代码、推理）
格式：{ instruction, input, output } 标准结构

关键数据集

Alpaca（Stanford 2023）— 5.2 万条 GPT-3.5 自指令生成
ShareGPT — 用户分享的 ChatGPT 对话
WizardLM Evol-Instruct — 复杂指令进化
OpenAssistant — 社区贡献的高质量对话

在 AI 训练数据产业中

数据标注厂商核心服务 — Scale AI / 海天瑞声 / 倍赛科技都提供 SFT 数据标注
质量优于规模 — SFT 阶段 1 万条高质量数据 > 100 万条低质量
领域专家溢价 — 医疗 / 法律 / 金融等垂直 SFT 数据，要求专业标注员（高单价）

演进

2022：InstructGPT 论文确立 SFT + RLHF 范式
2023：自指令（Self-Instruct）让 SFT 数据可低成本扩展
2024：高质量 SFT 数据稀缺成为大模型差异化关键
2025：合成 SFT 数据兴起，但仍需人工筛选高质量样本

相关概念

Pre-training / RLHF / DPO
数据标注 / Auto-labeling

∈ belongs_to::4-01-数据引擎

反向引用链接到本页

反向引用 6

按引用量 ↓

… 涵盖**版权数据 / 数据标注 / 合成数据 / 数据治理**四大细分板块。 ## 一句话定位第四层（AI 基础模型）的**最上游**，是大模型 [[Pre-training]] / SFT / [[RLHF]] 三阶段的数据供给基础。全球数据标注由 [[Scale AI]]（估值 $290 亿）一家独大，数据治理由 [[Databricks]]（估值 **$1340 亿**）/ [[Snowflake]]（市值 $850 亿 …

… - [[智领云]] ★★☆☆☆（数据中台 + 治理，2028+ 北交所） - [[数说故事]] ★★★☆☆（消费品营销 + 合成数据） ## 核心技术维度 1. **预训练与对齐**：[[Pre-training]] / SFT / [[RLHF]] / [[DPO]] / [[RLAIF]] 2. **数据标注技术**：[[数据标注]] / [[Auto-labeling]]（AI 预标注 + 人工审核混合）/ 3D 点云标注 / 多模态标注 …

查看原文 →

… 1. 在数千亿到数万亿 token 的语料上做自监督学习（next-token prediction） 2. 模型学会语言的语法、语义、世界知识 3. 之后通过 SFT + [[RLHF]] 微调到具体任务 ## 数据规模 - **GPT-3**（2020）：3000 亿 tokens（[GPT-3 论文/Wikipedia](https://en.wikipedia.org/wiki/GPT-3) …

… - **2024**：Llama 3.1 15 万亿 tokens，逼近高质量文本数据上限 - **2025+**：合成数据 / 多模态扩展 / 测试时计算成为应对路径 ## 相关概念 - SFT / [[RLHF]]（后续训练阶段） - [[高质量数据枯竭]]（核心瓶颈） - [[版权数据]] / [[合成数据]]（数据来源） ∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →

… 把原始非结构化信息转化为可供大模型训练的高质量结构化语料，是决定 AI 模型质量上限的基础保障层。 ## 定义 **数据引擎** = 为大模型 [[Pre-training]] / SFT / [[RLHF]] 提供高质量训练数据的完整产业生态。涵盖四大细分板块： 1. **版权数据 / IP 资产** — 拥有大规模优质文本、图像、音视频版权内容的企业（如 [[Reddit]] / [[阅文集团]] / [[视觉中国]] …

查看原文 →

… - **偏好排序**（[[RLHF]]）：对多个模型回答按人类偏好排序 ## 在 AI 产业链中的角色 - **大模型训练的"打地基"环节**：从预训练到 SFT 到 [[RLHF]]，每个阶段都需要不同形式的标注数据 - **质量决定模型上限**：在算力 / 算法相对开放的今天，数据质量成为大模型差异化的核心 - **从劳动密集向技术密集转型**：[[Auto-labeling]] + 人工审核混 …

查看原文 →