PagedAttention与vLLM的设计原理

Question

PagedAttention是vLLM推理框架的核心技术。请解释传统KV-Cache管理中的显存碎片问题，PagedAttention如何借鉴操作系统的虚拟内存分页思想解决该问题，以及vLLM的实际收益。。AI 面试题。UC Berkeley 面试题

我还是少年 · Accepted Answer

传统KV-Cache问题：KV-Cache预分配一个连续显存块（按最大长度），导致：1）内部碎片（实际序列比最大长度短）、2）外部碎片（不同长度序列无法利用间隙）、3）显存利用率仅20-40%。PagedAttention：将KV-Cache划分为固定大小的块（pages，如16个token/block），按需分配非连续物理块，逻辑上连续的K/V可在物理上分散存储。类似OS虚拟内存：逻辑页表映射到物理页，支持按需分配和共享（多beam search中不同序列可共享前缀的KV-Cache块）。vLLM收益：显存利用率从~40%提升至~95%，支持更大的batch size，吞吐量提升2-4倍。PagedAttention已成为LLM推理引擎的事实标准（也被TensorRT-LLM、SGLang等采用）。

PagedAttention与vLLM的设计原理

回答

我还是少年