AI产业链地图·知识库 投机解码 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/投机解码
更新 2026·06·17
概念 技术 / 术语

投机解码

Speculative Decoding · 推测解码 · 草稿模型

传统 LLM 自回归解码每次只生成 1 个 token,GPU 利用率受限于序列依赖。投机解码用小模型"草稿"出 K 个 token,让大模型在一次 forward pass 中并行验证 K 个 token 是否正确,正确则接受,错误则从该处重新生成。

投机解码 CONCEPT · 概念
首次提出
2022
关键参与方
[[Google]] · [[vLLM]] · [[NVIDIA]]
反向引用
6 处 · 来自 5
归属 LLM推理推理加速第四层

投机解码(Speculative Decoding)

用一个小的"草稿模型"快速生成多个候选 token,再让大模型一次性验证,实现解码加速 2-4×。

定义

传统 LLM 自回归解码每次只生成 1 个 token,GPU 利用率受限于序列依赖。投机解码用小模型"草稿"出 K 个 token,让大模型在一次 forward pass 中并行验证 K 个 token 是否正确,正确则接受,错误则从该处重新生成。

核心原理

  • 草稿模型:体积通常为目标模型的 1/10~1/100(如 7B 配 70M 草稿)
  • 验证步骤:大模型对 K 个 draft token 做并行 forward,比较 logits
  • 接受率:典型 60-90%,意味着平均每次大模型 forward 产出 2-3 个 token
  • 效果:端到端解码速度 2-4× 提升,输出质量与原模型完全一致

主要玩家

  • 学术界:Google DeepMind 2022 原创
  • vLLM:原生支持投机解码
  • NVIDIA TensorRT-LLM:在 H100 / Blackwell 上深度优化
  • 中国:DeepSeek R1 使用 multi-token prediction(变种)

变体

  • Self-Speculative Decoding:大模型自己跳层做草稿
  • EAGLE:在原模型上加小 head 做草稿
  • Medusa:多 head 并行草稿
  • Multi-Token Prediction (MTP)DeepSeek V3 / R1 自带

在 AI 产业链中的角色

  • 推理成本下降的核心技术驱动力:与 PagedAttentionContinuous Batching 并列 2024-25 LLM 推理三大革新
  • 延迟敏感场景必备:对话、Agent、代码生成等场景延迟降低 2-4×
  • 2025 已成主流推理引擎标配

演进历史

  • 2022 Google DeepMind 论文首次提出
  • 2023 EAGLE、Medusa 等变体相继出现
  • 2024 vLLM / TensorRT-LLM 原生支持
  • 2024-12 DeepSeek V3 引入 Multi-Token Prediction

相关概念

∈ belongs_to::4-04-模型部署与优化