AI产业链地图·知识库 PagedAttention · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/PagedAttention
更新 2026·06·17
概念 技术 / 术语

PagedAttention

分页注意力 · 分页 KV-Cache

PagedAttention 是一种针对 LLM 推理的注意力机制实现,将 KV-Cache 切分成固定大小的"页"(page),按需分配和回收,类似操作系统的虚拟内存管理。

PagedAttention CONCEPT · 概念
首次提出
2023
关键参与方
[[vLLM]] · [[NVIDIA]]
反向引用
11 处 · 来自 7
归属 LLM推理KV-Cache显存优化vLLM第四层

PagedAttention

vLLM 团队在 2023 年提出的革命性 KV-Cache 管理技术;将操作系统的虚拟内存分页思想引入 KV-Cache 管理,解决 LLM 推理中显存碎片化和浪费的核心痛点。

定义

PagedAttention 是一种针对 LLM 推理的注意力机制实现,将 KV-Cache 切分成固定大小的"页"(page),按需分配和回收,类似操作系统的虚拟内存管理。

解决的核心问题

LLM 推理中,每个请求的 KV-Cache 大小不确定且随生成 token 增长,传统连续分配方式会导致:

  • 显存碎片化 → GPU 内存利用率低
  • 内存浪费 → 单卡可服务并发数受限
  • 调度复杂 → 不同请求长度差异巨大

PagedAttention 通过分页管理:

  • 按页(如 16 token / 页)切分 KV-Cache
  • 物理页可不连续,逻辑页号通过 page table 映射
  • 不同请求间共享相同前缀的 KV 页(节省显存)
  • 大幅提升单卡并发数(通常 2-4×)

主要玩家

在 AI 产业链中的角色

  • 推理成本下降的核心技术驱动力之一:与 Continuous Batching 共同支撑 LLM 推理吞吐量 10-20× 提升
  • vLLM 的标志性技术:让 vLLM 在 2023-2024 迅速成为开源 LLM 推理引擎事实标准
  • 现已成为推理引擎标配:所有主流推理引擎(含 TensorRT-LLM)都实现了类似机制

演进历史

  • 2023-09 UC Berkeley 团队发表论文《Efficient Memory Management for Large Language Model Serving with PagedAttention》(arXiv 2309.06180,SOSP'23,T2 已核实:作者 Woosuk Kwon 等,吞吐提升 2-4×)
  • 2023-10 vLLM 开源
  • 2024 TensorRT-LLM、SGLang 等推理引擎陆续实现类似机制
  • 2025 Prefix Caching、跨请求共享等优化进一步演进

相关概念

∈ belongs_to::4-04-模型部署与优化