RLHF(Reinforcement Learning from Human Feedback)
基于人类反馈的强化学习,是 GPT-3.5 / GPT-4 / Claude 等顶级 LLM 实现"对齐"的主流方法,让模型输出"对人类有帮助、无害、诚实"。
定义
RLHF 三阶段训练:
- 监督微调(SFT):在精选指令数据上微调基础模型
- 奖励模型训练(RM):人类对模型多个输出排序 → 训练奖励模型
- 强化学习(PPO / RLHF):以奖励模型为信号,用 PPO 算法更新策略
RLHF 把"什么是好的回复"这一难以量化的目标,转化为可学习的奖励函数。
技术细节
- PPO:OpenAI 主流实现
- DPO(Direct Preference Optimization):跳过显式奖励模型,直接基于偏好优化(更简单)
- GRPO / 其他变种 — 不断涌现
主要玩家
- OpenAI — RLHF 商业化先驱(InstructGPT / ChatGPT)
- Anthropic — 在 RLHF 基础上演化出 Constitutional AI(用 AI Feedback 替代 Human Feedback)
- 开源生态 — Llama / Qwen / DeepSeek 等都用 RLHF 或 DPO
在 AI 产业链中的角色
RLHF 是当前 LLM 对齐的"行业标准",但人工标注成本高、规模化受限是其瓶颈。Constitutional AI / DPO / RLAIF 等都是为应对其局限演化出的新方法。
演进历史
- 2017 Christiano et al. 论文《Deep Reinforcement Learning from Human Preferences》奠基
- 2022 OpenAI InstructGPT 论文,RLHF 走向工业化
- 2022-12 ChatGPT 发布,RLHF 走入大众视野
- 2023 DPO / Constitutional AI 等改进方法涌现
- 2024-25 RLAIF(AI 反馈)逐渐替代部分 RLHF
相关概念
- Constitutional AI / DPO(衍生 / 替代方法)
- 红队测试(验证对齐效果)
在 4-01 数据引擎中的角色
RLHF 是 4-01-数据引擎 子行业最高价值的数据形态:
- 数据稀缺性最高 — 偏好排序要求标注员对领域有专业判断力,标注员单位时间产出低
- Scale AI 50%+ 营收来自 RLHF 类数据服务 — OpenAI / Anthropic / Meta / Google 的 RLHF 数据主要由 Scale 供给
- 海天瑞声 / 倍赛科技 / 整数智能 在国内做 RLHF 偏好数据
- 国内大厂自建 RLHF 团队(百度 / 字节 / 阿里)+ 外采 海天瑞声 / 倍赛科技 等供给
∈ belongs_to::4-03-模型生态与工具链 ∈ belongs_to::4-01-数据引擎