SFT(Supervised Fine-Tuning)
监督微调。大模型训练的第二阶段(Pre-training 之后、RLHF 之前)。用高质量"指令 - 回答"对(instruction-response pairs)让 LLM 学会服从指令、按要求回答。
是什么
经典三段式训练:
- Pre-training — 海量低质量数据,让模型学会语言模式
- SFT — 中等规模高质量指令数据(万到百万级),让模型学会"服从指令"
- RLHF / DPO — 偏好数据,让模型学会"按人类偏好回答"
数据需求
- 规模:典型 1 万 - 100 万条
- 质量:每条都要人工撰写或精选
- 多样性:覆盖各类任务(问答、总结、翻译、代码、推理)
- 格式:
{ instruction, input, output }标准结构
关键数据集
- Alpaca(Stanford 2023)— 5.2 万条 GPT-3.5 自指令生成
- ShareGPT — 用户分享的 ChatGPT 对话
- WizardLM Evol-Instruct — 复杂指令进化
- OpenAssistant — 社区贡献的高质量对话
在 AI 训练数据产业中
- 数据标注厂商核心服务 — Scale AI / 海天瑞声 / 倍赛科技 都提供 SFT 数据标注
- 质量优于规模 — SFT 阶段 1 万条高质量数据 > 100 万条低质量
- 领域专家溢价 — 医疗 / 法律 / 金融等垂直 SFT 数据,要求专业标注员(高单价)
演进
- 2022:InstructGPT 论文确立 SFT + RLHF 范式
- 2023:自指令(Self-Instruct)让 SFT 数据可低成本扩展
- 2024:高质量 SFT 数据稀缺成为大模型差异化关键
- 2025:合成 SFT 数据兴起,但仍需人工筛选高质量样本
相关概念
- Pre-training / RLHF / DPO
- 数据标注 / Auto-labeling
∈ belongs_to::4-01-数据引擎