AI产业链地图·知识库 RLHF · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
更新 2026·06·17
概念 技术 / 术语

RLHF

Reinforcement Learning from Human Feedback · 人类反馈强化学习 · 基于人类反馈的强化学习

RLHF 三阶段训练:

RLHF CONCEPT · 概念
首次提出
2017
关键参与方
[[OpenAI]] · [[Anthropic]]
反向引用
28 处 · 来自 13
归属 对齐LLM训练第四层

RLHF(Reinforcement Learning from Human Feedback)

基于人类反馈的强化学习,是 GPT-3.5 / GPT-4 / Claude 等顶级 LLM 实现"对齐"的主流方法,让模型输出"对人类有帮助、无害、诚实"。

定义

RLHF 三阶段训练:

  1. 监督微调(SFT):在精选指令数据上微调基础模型
  2. 奖励模型训练(RM):人类对模型多个输出排序 → 训练奖励模型
  3. 强化学习(PPO / RLHF):以奖励模型为信号,用 PPO 算法更新策略

RLHF 把"什么是好的回复"这一难以量化的目标,转化为可学习的奖励函数。

技术细节

  • PPO:OpenAI 主流实现
  • DPO(Direct Preference Optimization):跳过显式奖励模型,直接基于偏好优化(更简单)
  • GRPO / 其他变种 — 不断涌现

主要玩家

  • OpenAI — RLHF 商业化先驱(InstructGPT / ChatGPT)
  • Anthropic — 在 RLHF 基础上演化出 Constitutional AI(用 AI Feedback 替代 Human Feedback)
  • 开源生态 — Llama / Qwen / DeepSeek 等都用 RLHF 或 DPO

在 AI 产业链中的角色

RLHF 是当前 LLM 对齐的"行业标准",但人工标注成本高、规模化受限是其瓶颈。Constitutional AI / DPO / RLAIF 等都是为应对其局限演化出的新方法。

演进历史

  • 2017 Christiano et al. 论文《Deep Reinforcement Learning from Human Preferences》奠基
  • 2022 OpenAI InstructGPT 论文,RLHF 走向工业化
  • 2022-12 ChatGPT 发布,RLHF 走入大众视野
  • 2023 DPO / Constitutional AI 等改进方法涌现
  • 2024-25 RLAIF(AI 反馈)逐渐替代部分 RLHF

相关概念

在 4-01 数据引擎中的角色

RLHF 是 4-01-数据引擎 子行业最高价值的数据形态:

  • 数据稀缺性最高 — 偏好排序要求标注员对领域有专业判断力,标注员单位时间产出低
  • Scale AI 50%+ 营收来自 RLHF 类数据服务OpenAI / Anthropic / Meta / Google 的 RLHF 数据主要由 Scale 供给
  • 海天瑞声 / 倍赛科技 / 整数智能 在国内做 RLHF 偏好数据
  • 国内大厂自建 RLHF 团队(百度 / 字节 / 阿里)+ 外采 海天瑞声 / 倍赛科技 等供给

∈ belongs_to::4-03-模型生态与工具链 ∈ belongs_to::4-01-数据引擎