AI产业链地图·知识库 投机解码 · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/投机解码

更新 2026·06·17

概念技术 / 术语

投机解码

Speculative Decoding · 推测解码 · 草稿模型

传统 LLM 自回归解码每次只生成 1 个 token，GPU 利用率受限于序列依赖。投机解码用小模型"草稿"出 K 个 token，让大模型在一次 forward pass 中并行验证 K 个 token 是否正确，正确则接受，错误则从该处重新生成。

投机解码 CONCEPT · 概念

首次提出: 2022
关键参与方: [[Google]] · [[vLLM]] · [[NVIDIA]]
反向引用: 6 处 · 来自 5 页

归属 LLM推理推理加速第四层

投机解码（Speculative Decoding）

用一个小的"草稿模型"快速生成多个候选 token，再让大模型一次性验证，实现解码加速 2-4×。

定义

传统 LLM 自回归解码每次只生成 1 个 token，GPU 利用率受限于序列依赖。投机解码用小模型"草稿"出 K 个 token，让大模型在一次 forward pass 中并行验证 K 个 token 是否正确，正确则接受，错误则从该处重新生成。

核心原理

草稿模型：体积通常为目标模型的 1/10~1/100（如 7B 配 70M 草稿）
验证步骤：大模型对 K 个 draft token 做并行 forward，比较 logits
接受率：典型 60-90%，意味着平均每次大模型 forward 产出 2-3 个 token
效果：端到端解码速度 2-4× 提升，输出质量与原模型完全一致

主要玩家

学术界：Google DeepMind 2022 原创
vLLM：原生支持投机解码
NVIDIA TensorRT-LLM：在 H100 / Blackwell 上深度优化
中国：DeepSeek R1 使用 multi-token prediction（变种）

变体

Self-Speculative Decoding：大模型自己跳层做草稿
EAGLE：在原模型上加小 head 做草稿
Medusa：多 head 并行草稿
Multi-Token Prediction (MTP)：DeepSeek V3 / R1 自带

在 AI 产业链中的角色

推理成本下降的核心技术驱动力：与 PagedAttention、Continuous Batching 并列 2024-25 LLM 推理三大革新
延迟敏感场景必备：对话、Agent、代码生成等场景延迟降低 2-4×
2025 已成主流推理引擎标配

演进历史

2022 Google DeepMind 论文首次提出
2023 EAGLE、Medusa 等变体相继出现
2024 vLLM / TensorRT-LLM 原生支持
2024-12 DeepSeek V3 引入 Multi-Token Prediction

相关概念

∈ belongs_to::4-04-模型部署与优化

反向引用链接到本页

反向引用 6

按引用量 ↓

… - **Tensor Parallelism**：原生支持多 GPU 张量并行 - **量化支持**：[[GPTQ]] / [[AWQ]] / [[GGUF]] / FP8 多种量化格式 - **投机解码** 支持 - 多硬件后端：[[NVIDIA]] GPU / [[AMD]] MI 系列 / [[华为]] 昇腾 / [[Intel]] Gaudi / TPU …

… - **被云厂商和独立推理服务商广泛采用**：开源社区贡献者覆盖几乎所有主流推理服务平台 ## 技术影响 - DeepSeek-R1 等开源大模型部署的默认推理引擎 - 推动 [[Continuous Batching]] / 投机解码 / [[FlashAttention]] 等技术进入工业级实践 - 反向影响 [[NVIDIA TensorRT-LLM]] 的开发优先级 ## 与 AI 产业链关系 …

查看原文 →

… / [[AWQ]] / [[GGUF]] / [[OneBit]] / [[知识蒸馏]] / [[模型剪枝]] 2. **推理引擎核心算法**：[[PagedAttention]] / [[Continuous Batching]] / 投机解码 / [[FlashAttention]] / [[KV-Cache]] 3. **模型服务化框架**：[[NVIDIA Triton Inference Server]] / [[vLLM]] / [[Ray]] / [[SGLang]] …

查看原文 →

… **：所有主流 LLM 推理引擎都实现了 Continuous Batching - **MaaS 商业模式的基石**：让按 token 计费的推理服务有了可行的单位经济性 ## 相关概念 - [[PagedAttention]] - 投机解码- [[KV-Cache]] - [[vLLM]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… ## 相关概念 - [[PagedAttention]] - [[Continuous Batching]] - [[FlashAttention]] - 投机解码∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… - **2025** Prefix Caching、跨请求共享等优化进一步演进 ## 相关概念 - [[KV-Cache]] - [[vLLM]] - [[Continuous Batching]] - 投机解码- [[FlashAttention]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →