PagedAttention
vLLM 团队在 2023 年提出的革命性 KV-Cache 管理技术;将操作系统的虚拟内存分页思想引入 KV-Cache 管理,解决 LLM 推理中显存碎片化和浪费的核心痛点。
定义
PagedAttention 是一种针对 LLM 推理的注意力机制实现,将 KV-Cache 切分成固定大小的"页"(page),按需分配和回收,类似操作系统的虚拟内存管理。
解决的核心问题
LLM 推理中,每个请求的 KV-Cache 大小不确定且随生成 token 增长,传统连续分配方式会导致:
- 显存碎片化 → GPU 内存利用率低
- 内存浪费 → 单卡可服务并发数受限
- 调度复杂 → 不同请求长度差异巨大
PagedAttention 通过分页管理:
- 按页(如 16 token / 页)切分 KV-Cache
- 物理页可不连续,逻辑页号通过 page table 映射
- 不同请求间共享相同前缀的 KV 页(节省显存)
- 大幅提升单卡并发数(通常 2-4×)
主要玩家
- vLLM(首创与开源实现)
- 后续被 NVIDIA TensorRT-LLM、SGLang、硅基流动 自研引擎等主流推理引擎借鉴
在 AI 产业链中的角色
- 推理成本下降的核心技术驱动力之一:与 Continuous Batching 共同支撑 LLM 推理吞吐量 10-20× 提升
- vLLM 的标志性技术:让 vLLM 在 2023-2024 迅速成为开源 LLM 推理引擎事实标准
- 现已成为推理引擎标配:所有主流推理引擎(含 TensorRT-LLM)都实现了类似机制
演进历史
- 2023-09 UC Berkeley 团队发表论文《Efficient Memory Management for Large Language Model Serving with PagedAttention》(arXiv 2309.06180,SOSP'23,T2 已核实:作者 Woosuk Kwon 等,吞吐提升 2-4×)
- 2023-10 vLLM 开源
- 2024 TensorRT-LLM、SGLang 等推理引擎陆续实现类似机制
- 2025 Prefix Caching、跨请求共享等优化进一步演进
相关概念
- KV-Cache
- vLLM
- Continuous Batching
- 投机解码
- FlashAttention
∈ belongs_to::4-04-模型部署与优化