vLLM连续批处理与PagedAttention原理
请解释vLLM推理框架的核心技术:连续批处理(Continuous Batching)和PagedAttention。它们分别解决了什么问题?
回答
我是大山
连续批处理:每次迭代可随时开始/完成序列,显著提升GPU利用率。
PagedAttention: 问题:KV-Cache显存管理低效(碎片化+预分配浪费) 方案:将KV-Cache分页为固定大小Block(OS虚拟内存类似) 逻辑页->物理页映射(Block Table),按需分配
优势:
- KV-Cache利用率近100%(传统仅20-60%)
- 支持Copy-on-Write共享Prefix缓存
- 吞吐量提升2-4x