DPO(Direct Preference Optimization)
直接偏好优化,2023 年提出的 RLHF 简化替代方案,无需显式奖励模型与 PPO,训练更稳定、计算更省,正在快速取代 RLHF。
定义
DPO 由斯坦福 Rafailov 等在 2023 年论文 Direct Preference Optimization: Your Language Model is Secretly a Reward Model 提出。核心洞察:可以把"奖励模型 + PPO"两步合并为一个分类损失,直接基于偏好数据微调语言模型。
技术细节
数学上,DPO 把 RLHF 的目标重写为:
L_DPO(π_θ; π_ref) = -E[(x, y_w, y_l)] log σ(β·(log π_θ(y_w|x)/π_ref(y_w|x) - log π_θ(y_l|x)/π_ref(y_l|x)))
其中 y_w 是偏好的回复,y_l 是不偏好的回复,π_ref 是参考模型(通常 SFT 模型)。
优势:
- 无需训练独立奖励模型
- 无需 PPO,训练更稳定
- 计算效率高 2-10 倍
主要玩家
在 AI 产业链中的角色
DPO 极大降低了对齐的工程门槛,使得小团队也能做高质量对齐,是 4-03 子行业开源模型生态繁荣的技术基础之一。
演进历史
- 2023-05 DPO 论文发布
- 2024 开源生态全面采纳,PPO 逐渐让位
- 2024-25 SimPO / KTO / IPO 等 DPO 衍生方法涌现
相关概念
- RLHF(被替代的前辈)
- Constitutional AI(不同思路的对齐方法)
∈ belongs_to::4-03-模型生态与工具链