AI产业链地图·知识库 推理模型 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/推理模型
更新 2026·06·17
概念 技术 / 术语

推理模型

Reasoning Model · Reasoning LLM · 思考型大模型 · 推理大模型

推理模型 = LLM + 强化学习训练 + 长思考链解码。模型在回答前生成数千到数万 token 的内部推理过程("思考"),然后给出最终答案。区别于传统 LLM 直接出答案的范式。

推理模型 CONCEPT · 概念
首次提出
2024
关键参与方
[[OpenAI]] · [[DeepSeek]] · [[Anthropic]] · [[Google]]
反向引用
7 处 · 来自 6
归属 推理模型Chain-of-ThoughtRLHFAI算法第四层

推理模型

2024 OpenAI o1 引入的新范式:让 大语言模型 在回答前生成长思考链(Chain-of-Thought),通过推理时计算显著提升复杂任务(数学/代码/科学)表现。DeepSeek-R1(2025-01)以极低成本复刻该范式并开源,颠覆全球定价。

定义

推理模型 = LLM + 强化学习训练 + 长思考链解码。模型在回答前生成数千到数万 token 的内部推理过程("思考"),然后给出最终答案。区别于传统 LLM 直接出答案的范式。

技术细节

  • OpenAI o1 / o3 系列 — 使用 RLHF + 自我博弈训练(具体方法未公开)
  • DeepSeek-R1GRPO(Group Relative Policy Optimization)+ 冷启动 SFT + 多阶段 RL
  • 思考链长度 — 通常 2K-50K token(推理时计算成本远高于输出 token)
  • 能力提升 — 数学竞赛、代码、科学推理 30-80% 提升

主要玩家

  • OpenAI — o1(2024-09)/ o3(2024-12)
  • DeepSeek — R1(2025-01,开源,颠覆性)
  • Anthropic — Claude 4.5 推理能力
  • Google — Gemini 2.5 Thinking
  • 月之暗面 — Kimi K2 Thinking(2025-11)

在 AI 产业链中的角色

推理模型是 2024-2026 4-02-模型工厂 子行业最大技术变革。它推动了:

  • 训练范式从纯 next-token prediction 转向 RL + 长思考
  • 推理基础设施需求暴涨(思考链消耗大量 token)
  • 模型能力曲线突破纯 scaling 瓶颈
  • DeepSeek-R1 引领的全球价格战

演进历史

相关概念

  • 推理时计算
  • GRPO — DeepSeek 提出的 RL 方法
  • RLHF
  • 模型蒸馏 — 从大推理模型蒸馏小模型

∈ belongs_to::4-02-模型工厂