投机解码(Speculative Decoding)
用一个小的"草稿模型"快速生成多个候选 token,再让大模型一次性验证,实现解码加速 2-4×。
定义
传统 LLM 自回归解码每次只生成 1 个 token,GPU 利用率受限于序列依赖。投机解码用小模型"草稿"出 K 个 token,让大模型在一次 forward pass 中并行验证 K 个 token 是否正确,正确则接受,错误则从该处重新生成。
核心原理
- 草稿模型:体积通常为目标模型的 1/10~1/100(如 7B 配 70M 草稿)
- 验证步骤:大模型对 K 个 draft token 做并行 forward,比较 logits
- 接受率:典型 60-90%,意味着平均每次大模型 forward 产出 2-3 个 token
- 效果:端到端解码速度 2-4× 提升,输出质量与原模型完全一致
主要玩家
- 学术界:Google DeepMind 2022 原创
- vLLM:原生支持投机解码
- NVIDIA TensorRT-LLM:在 H100 / Blackwell 上深度优化
- 中国:DeepSeek R1 使用 multi-token prediction(变种)
变体
- Self-Speculative Decoding:大模型自己跳层做草稿
- EAGLE:在原模型上加小 head 做草稿
- Medusa:多 head 并行草稿
- Multi-Token Prediction (MTP):DeepSeek V3 / R1 自带
在 AI 产业链中的角色
- 推理成本下降的核心技术驱动力:与 PagedAttention、Continuous Batching 并列 2024-25 LLM 推理三大革新
- 延迟敏感场景必备:对话、Agent、代码生成等场景延迟降低 2-4×
- 2025 已成主流推理引擎标配
演进历史
- 2022 Google DeepMind 论文首次提出
- 2023 EAGLE、Medusa 等变体相继出现
- 2024 vLLM / TensorRT-LLM 原生支持
- 2024-12 DeepSeek V3 引入 Multi-Token Prediction
相关概念
- PagedAttention
- Continuous Batching
- FlashAttention
- KV-Cache
∈ belongs_to::4-04-模型部署与优化