AI产业链地图·知识库 KV-Cache · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/KV-Cache

更新 2026·06·17

概念技术 / 术语

KV-Cache

KV 缓存 · KV Cache · KV-Cache 优化

在 Transformer 的注意力机制中，每生成一个新 token 需要计算它与历史所有 token 的 attention。如果不缓存，每次都重新算所有历史 K/V，复杂度 O(n²)。KV-Cache 在显存中保存每一层每个 token 的 K/V 向量，让生成新 token 时只需计算 1 步增量，复杂度降为 O(n)。

KV-Cache CONCEPT · 概念

首次提出: 2017
关键参与方: [[vLLM]] · [[NVIDIA]]
反向引用: 6 处 · 来自 6 页

归属 LLM推理显存优化第四层

KV-Cache

Transformer 推理时缓存历史 token 的 Key/Value 向量，避免每生成一个新 token 都重新计算所有历史 token，是 LLM 自回归推理的显存大头。

定义

在 Transformer 的注意力机制中，每生成一个新 token 需要计算它与历史所有 token 的 attention。如果不缓存，每次都重新算所有历史 K/V，复杂度 O(n²)。KV-Cache 在显存中保存每一层每个 token 的 K/V 向量，让生成新 token 时只需计算 1 步增量，复杂度降为 O(n)。

显存占用

KV-Cache 显存量 = 层数 × 2（K+V）× 头数 × 头维度 × 序列长度 × 精度。对 70B 模型 4K 上下文：

FP16 精度：约 3 GB/请求
100 并发：300 GB 显存 → 大幅限制服务能力

主要优化技术

PagedAttention：分页管理，减少碎片，提升并发数
GQA / MQA（Grouped/Multi-Query Attention）：模型层减少 KV 头数
量化 KV-Cache：INT8 / INT4 量化压缩 KV
KV-Cache 卸载到 CPU/NVMe：Offloading
Prefix Caching：相同前缀的请求共享 KV-Cache
MLA（DeepSeek V2/V3 多头潜变量注意力）：极致压缩 KV-Cache

主要玩家

学术界：UC Berkeley（PagedAttention）、Tri Dao（FlashAttention）
工业界：NVIDIA / vLLM / DeepSeek / 硅基流动

在 AI 产业链中的角色

LLM 推理的核心瓶颈：显存 + 带宽双重压力源
2024-25 推理引擎所有创新基本围绕 KV-Cache：PagedAttention、Prefix Caching、Disaggregated Serving、MLA 等
决定推理服务单卡并发数：直接决定 MaaS 单位经济性

相关概念

∈ belongs_to::4-04-模型部署与优化

反向引用链接到本页

反向引用 6

按引用量 ↓

… d]] / [[模型评测]] / [[GGUF]] / [[ONNX]] / [[SafeTensors]] / 分布式模型缓存 2. **推理优化**：[[量化]]（GPTQ / AWQ / [[GGUF]]）/ [[推测性解码]] / KV 缓存 / [[Flash Attention]] / [[连续批处理]] 3. **RAG 技术栈**：[[向量数据库]] / [[Chunking]] / [[混合检索]] / [[Reranking]] / [[GraphRAG]] …

查看原文 →

… 2. **推理引擎核心算法**：[[PagedAttention]] / [[Continuous Batching]] / [[投机解码]] / [[FlashAttention]] / KV-Cache3. **模型服务化框架**：[[NVIDIA Triton Inference Server]] / [[vLLM]] / [[Ray]] / [[SGLang]] / [[DeepSpeed]] …

查看原文 →

… - **MaaS 商业模式的基石**：让按 token 计费的推理服务有了可行的单位经济性 ## 相关概念 - [[PagedAttention]] - [[投机解码]] - KV-Cache- [[vLLM]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… - **2024** TensorRT-LLM、SGLang 等推理引擎陆续实现类似机制 - **2025** Prefix Caching、跨请求共享等优化进一步演进 ## 相关概念 - KV-Cache- [[vLLM]] - [[Continuous Batching]] - [[投机解码]] - [[FlashAttention]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… ## 相关概念 - [[PagedAttention]] - [[Continuous Batching]] - [[FlashAttention]] - KV-Cache∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… | Sparse Activation | 仅激活相关参数 | | 检索器轻量化 | 小型 [[嵌入向量]] 模型 + 本地向量库 | | Cache / KV-Cache 优化 | KV-Cache 复用 | ## 应用场景 - **手机端 AI 助手** — Apple Intelligence / 小米 / 华为 HarmonyOS - **智能音箱 / 智能车机** — 离线语音问答 …

查看原文 →