推理模型
2024 OpenAI o1 引入的新范式:让 大语言模型 在回答前生成长思考链(Chain-of-Thought),通过推理时计算显著提升复杂任务(数学/代码/科学)表现。DeepSeek-R1(2025-01)以极低成本复刻该范式并开源,颠覆全球定价。
定义
推理模型 = LLM + 强化学习训练 + 长思考链解码。模型在回答前生成数千到数万 token 的内部推理过程("思考"),然后给出最终答案。区别于传统 LLM 直接出答案的范式。
技术细节
- OpenAI o1 / o3 系列 — 使用 RLHF + 自我博弈训练(具体方法未公开)
- DeepSeek-R1 — GRPO(Group Relative Policy Optimization)+ 冷启动 SFT + 多阶段 RL
- 思考链长度 — 通常 2K-50K token(推理时计算成本远高于输出 token)
- 能力提升 — 数学竞赛、代码、科学推理 30-80% 提升
主要玩家
- OpenAI — o1(2024-09)/ o3(2024-12)
- DeepSeek — R1(2025-01,开源,颠覆性)
- Anthropic — Claude 4.5 推理能力
- Google — Gemini 2.5 Thinking
- 月之暗面 — Kimi K2 Thinking(2025-11)
在 AI 产业链中的角色
推理模型是 2024-2026 4-02-模型工厂 子行业最大技术变革。它推动了:
- 训练范式从纯 next-token prediction 转向 RL + 长思考
- 推理基础设施需求暴涨(思考链消耗大量 token)
- 模型能力曲线突破纯 scaling 瓶颈
- DeepSeek-R1 引领的全球价格战
演进历史
- 2024-09 OpenAI o1 发布,"推理时计算"概念提出
- 2024-12 OpenAI o3 在 ARC-AGI 等基准突破
- 2025-01-DeepSeek-R1震动全球AI界 — 开源,定价革命
- 2025-11 月之暗面 Kimi K2 Thinking 发布
相关概念
- 推理时计算
- GRPO — DeepSeek 提出的 RL 方法
- RLHF
- 模型蒸馏 — 从大推理模型蒸馏小模型
∈ belongs_to::4-02-模型工厂