AI产业链地图·知识库 DPO · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
更新 2026·06·17
概念 技术 / 术语

DPO

Direct Preference Optimization · 直接偏好优化

DPO 由斯坦福 Rafailov 等在 2023 年论文 *Direct Preference Optimization: Your Language Model is Secretly a Reward Model* 提出。核心洞察:可以把"奖励模型 + PPO"两步合并为一个分类损失,直接基于偏好数据微调语言模型。

DPO CONCEPT · 概念
首次提出
2023
关键参与方
[[Anthropic]]
反向引用
14 处 · 来自 9
归属 对齐LLM训练第四层

DPO(Direct Preference Optimization)

直接偏好优化,2023 年提出的 RLHF 简化替代方案,无需显式奖励模型与 PPO,训练更稳定、计算更省,正在快速取代 RLHF。

定义

DPO 由斯坦福 Rafailov 等在 2023 年论文 Direct Preference Optimization: Your Language Model is Secretly a Reward Model 提出。核心洞察:可以把"奖励模型 + PPO"两步合并为一个分类损失,直接基于偏好数据微调语言模型。

技术细节

数学上,DPO 把 RLHF 的目标重写为:

L_DPO(π_θ; π_ref) = -E[(x, y_w, y_l)] log σ(β·(log π_θ(y_w|x)/π_ref(y_w|x) - log π_θ(y_l|x)/π_ref(y_l|x)))

其中 y_w 是偏好的回复,y_l 是不偏好的回复,π_ref 是参考模型(通常 SFT 模型)。

优势:

  • 无需训练独立奖励模型
  • 无需 PPO,训练更稳定
  • 计算效率高 2-10 倍

主要玩家

  • 开源模型生态全面采用:Meta Llama / Mistral / Qwen / DeepSeek
  • DPO 已成为大多数开源对齐流程的默认选择

在 AI 产业链中的角色

DPO 极大降低了对齐的工程门槛,使得小团队也能做高质量对齐,是 4-03 子行业开源模型生态繁荣的技术基础之一。

演进历史

  • 2023-05 DPO 论文发布
  • 2024 开源生态全面采纳,PPO 逐渐让位
  • 2024-25 SimPO / KTO / IPO 等 DPO 衍生方法涌现

相关概念

∈ belongs_to::4-03-模型生态与工具链