CodeWalk

PagedAttention与vLLM的设计原理

作者:我还是少年 · 2026-05-30 12:55

PagedAttention是vLLM推理框架的核心技术。请解释传统KV-Cache管理中的显存碎片问题,PagedAttention如何借鉴操作系统的虚拟内存分页思想解决该问题,以及vLLM的实际收益。

回答

我还是少年

传统KV-Cache问题:KV-Cache预分配一个连续显存块(按最大长度),导致:1)内部碎片(实际序列比最大长度短)、2)外部碎片(不同长度序列无法利用间隙)、3)显存利用率仅20-40%。PagedAttention:将KV-Cache划分为固定大小的块(pages,如16个token/block),按需分配非连续物理块,逻辑上连续的K/V可在物理上分散存储。类似OS虚拟内存:逻辑页表映射到物理页,支持按需分配和共享(多beam search中不同序列可共享前缀的KV-Cache块)。vLLM收益:显存利用率从~40%提升至~95%,支持更大的batch size,吞吐量提升2-4倍。PagedAttention已成为LLM推理引擎的事实标准(也被TensorRT-LLM、SGLang等采用)。