AI产业链地图·知识库 SFT · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
更新 2026·06·17
概念 技术 / 术语

SFT

Supervised Fine-Tuning · 监督微调

2. SFT — 中等规模高质量指令数据(万到百万级),让模型学会"服从指令" 3. RLHF / DPO — 偏好数据,让模型学会"按人类偏好回答"

SFT CONCEPT · 概念
首次提出
2022
关键参与方
[[OpenAI]]
反向引用
6 处 · 来自 4
归属 SFT大模型微调AI数据第四层

SFT(Supervised Fine-Tuning)

监督微调。大模型训练的第二阶段(Pre-training 之后、RLHF 之前)。用高质量"指令 - 回答"对(instruction-response pairs)让 LLM 学会服从指令、按要求回答。

是什么

经典三段式训练:

  1. Pre-training — 海量低质量数据,让模型学会语言模式
  2. SFT — 中等规模高质量指令数据(万到百万级),让模型学会"服从指令"
  3. RLHF / DPO — 偏好数据,让模型学会"按人类偏好回答"

数据需求

  • 规模:典型 1 万 - 100 万条
  • 质量:每条都要人工撰写或精选
  • 多样性:覆盖各类任务(问答、总结、翻译、代码、推理)
  • 格式{ instruction, input, output } 标准结构

关键数据集

  • Alpaca(Stanford 2023)— 5.2 万条 GPT-3.5 自指令生成
  • ShareGPT — 用户分享的 ChatGPT 对话
  • WizardLM Evol-Instruct — 复杂指令进化
  • OpenAssistant — 社区贡献的高质量对话

在 AI 训练数据产业中

  • 数据标注厂商核心服务Scale AI / 海天瑞声 / 倍赛科技 都提供 SFT 数据标注
  • 质量优于规模 — SFT 阶段 1 万条高质量数据 > 100 万条低质量
  • 领域专家溢价 — 医疗 / 法律 / 金融等垂直 SFT 数据,要求专业标注员(高单价)

演进

  • 2022:InstructGPT 论文确立 SFT + RLHF 范式
  • 2023:自指令(Self-Instruct)让 SFT 数据可低成本扩展
  • 2024:高质量 SFT 数据稀缺成为大模型差异化关键
  • 2025:合成 SFT 数据兴起,但仍需人工筛选高质量样本

相关概念

∈ belongs_to::4-01-数据引擎