AI产业链地图·知识库 PagedAttention · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/PagedAttention

更新 2026·06·17

概念技术 / 术语

PagedAttention

分页注意力 · 分页 KV-Cache

PagedAttention 是一种针对 LLM 推理的注意力机制实现，将 KV-Cache 切分成固定大小的"页"（page），按需分配和回收，类似操作系统的虚拟内存管理。

PagedAttention CONCEPT · 概念

首次提出: 2023
关键参与方: [[vLLM]] · [[NVIDIA]]
反向引用: 11 处 · 来自 7 页

归属 LLM推理KV-Cache显存优化vLLM第四层

PagedAttention

vLLM 团队在 2023 年提出的革命性 KV-Cache 管理技术；将操作系统的虚拟内存分页思想引入 KV-Cache 管理，解决 LLM 推理中显存碎片化和浪费的核心痛点。

定义

PagedAttention 是一种针对 LLM 推理的注意力机制实现，将 KV-Cache 切分成固定大小的"页"（page），按需分配和回收，类似操作系统的虚拟内存管理。

解决的核心问题

LLM 推理中，每个请求的 KV-Cache 大小不确定且随生成 token 增长，传统连续分配方式会导致：

显存碎片化 → GPU 内存利用率低
内存浪费 → 单卡可服务并发数受限
调度复杂 → 不同请求长度差异巨大

PagedAttention 通过分页管理：

按页（如 16 token / 页）切分 KV-Cache
物理页可不连续，逻辑页号通过 page table 映射
不同请求间共享相同前缀的 KV 页（节省显存）
大幅提升单卡并发数（通常 2-4×）

主要玩家

vLLM（首创与开源实现）
后续被 NVIDIA TensorRT-LLM、SGLang、硅基流动自研引擎等主流推理引擎借鉴

在 AI 产业链中的角色

推理成本下降的核心技术驱动力之一：与 Continuous Batching 共同支撑 LLM 推理吞吐量 10-20× 提升
vLLM 的标志性技术：让 vLLM 在 2023-2024 迅速成为开源 LLM 推理引擎事实标准
现已成为推理引擎标配：所有主流推理引擎（含 TensorRT-LLM）都实现了类似机制

演进历史

2023-09 UC Berkeley 团队发表论文《Efficient Memory Management for Large Language Model Serving with PagedAttention》（arXiv 2309.06180，SOSP'23，T2 已核实：作者 Woosuk Kwon 等，吞吐提升 2-4×）
2023-10 vLLM 开源
2024 TensorRT-LLM、SGLang 等推理引擎陆续实现类似机制
2025 Prefix Caching、跨请求共享等优化进一步演进

相关概念

∈ belongs_to::4-04-模型部署与优化

反向引用链接到本页

反向引用 11

按引用量 ↓

… - [[Hugging Face]] TGI（Text Generation Inference） - [[硅基流动]] 自研引擎 ## 在 AI 产业链中的角色 - **推理成本下降的核心技术驱动力**：与 PagedAttention 共同支撑 LLM 推理吞吐量 10-20× 提升 - **推理引擎事实标配**：所有主流 LLM 推理引擎都实现了 Continuous Batching - **MaaS 商业模式的基石**：让按 token 计费的推理服务有了可行的单 …

… - **推理引擎事实标配**：所有主流 LLM 推理引擎都实现了 Continuous Batching - **MaaS 商业模式的基石**：让按 token 计费的推理服务有了可行的单位经济性 ## 相关概念 - PagedAttention- [[投机解码]] - [[KV-Cache]] - [[vLLM]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… 对 70B 模型 4K 上下文： - FP16 精度：约 3 GB/请求 - 100 并发：300 GB 显存 → 大幅限制服务能力 ## 主要优化技术 - **PagedAttention**：分页管理，减少碎片，提升并发数 - **GQA / MQA**（Grouped/Multi-Query Attention）：模型层减少 KV 头数 - **量化 KV-Cache**：INT8 / INT4 量化压缩 KV …

… 基本围绕 KV-Cache**：PagedAttention、Prefix Caching、Disaggregated Serving、MLA 等 - **决定推理服务单卡并发数**：直接决定 MaaS 单位经济性 ## 相关概念 - PagedAttention- [[Continuous Batching]] - [[FlashAttention]] - [[投机解码]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… # vLLM > UC Berkeley 团队主导的**开源 LLM 推理引擎**；首创 PagedAttention 技术，**GitHub 45,000+ Star**，已成为开源 LLM 推理引擎的**事实标准**。 ## 关键数据 | 维度 | 数据 | 时间 | …

… | 主要采用者 | [[硅基流动]] / [[火山引擎]] / [[Together AI]] / [[Anyscale]] | — | ## 核心技术 - **PagedAttention**：将操作系统的虚拟内存分页思想引入 KV-Cache 管理，解决 LLM 推理中显存碎片化与浪费的核心痛点 - **[[Continuous Batching]]**：动态批处理，请求级别拼批，吞吐量较静态批处理 +10-20× …

查看原文 →

… - **Multi-Token Prediction (MTP)**：[[DeepSeek]] V3 / R1 自带 ## 在 AI 产业链中的角色 - **推理成本下降的核心技术驱动力**：与 PagedAttention、[[Continuous Batching]] 并列 2024-25 LLM 推理三大革新 - **延迟敏感场景必备**：对话、Agent、代码生成等场景延迟降低 2-4× …

… - **2024** vLLM / TensorRT-LLM 原生支持 - **2024-12** DeepSeek V3 引入 Multi-Token Prediction ## 相关概念 - PagedAttention- [[Continuous Batching]] - [[FlashAttention]] - [[KV-Cache]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… 1. **模型量化与压缩**：[[INT4 量化]] / [[GPTQ]] / [[AWQ]] / [[GGUF]] / [[OneBit]] / [[知识蒸馏]] / [[模型剪枝]] 2. **推理引擎核心算法**：PagedAttention / [[Continuous Batching]] / [[投机解码]] / [[FlashAttention]] / [[KV-Cache]] 3. **模型服务化框架**：[[NVIDIA Triton Inference Serve …

查看原文 →

… - **2025** 与 NVIDIA Triton 集成更深，Blackwell GPU 原生优化 ## 相关概念 - [[NVIDIA Triton Inference Server]] - [[vLLM]] - PagedAttention- [[CUDA 生态]] - [[模型量化]] ⚔ competitor:: [[vLLM]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… - [[GPTQ]] - [[AWQ]] - [[GGUF]] - [[OneBit]] - [[模型剪枝]] - [[知识蒸馏]] - [[FlashAttention]] - PagedAttention∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →