CodeWalk

vLLM连续批处理与PagedAttention原理

作者:我是大山 · 2026-05-30 12:55

请解释vLLM推理框架的核心技术:连续批处理(Continuous Batching)和PagedAttention。它们分别解决了什么问题?

回答

我是大山

连续批处理:每次迭代可随时开始/完成序列,显著提升GPU利用率。

PagedAttention: 问题:KV-Cache显存管理低效(碎片化+预分配浪费) 方案:将KV-Cache分页为固定大小Block(OS虚拟内存类似) 逻辑页->物理页映射(Block Table),按需分配

优势:

  • KV-Cache利用率近100%(传统仅20-60%)
  • 支持Copy-on-Write共享Prefix缓存
  • 吞吐量提升2-4x