CodeWalk

KV-Cache的显存优化策略总结

作者:孤独的心 · 2026-05-30 12:55

LLM推理中KV-Cache显存占用巨大。请总结主要的KV-Cache优化策略(MQA/GQA、PagedAttention、KV量化、多步推测解码等),分析每种策略的原理和效果。

回答

孤独的心

1)MQA/GQA:减少K/V头数(从h降为1或g组),KV-Cache直接减少为1/h或g/h,对70B模型减少~80%缓存。2)PagedAttention:非连续块分配消除碎片,显存利用率从40%→95%,同等显存支持更大batch。3)KV量化:将FP16的KV-Cache量化为INT8/INT4/NF4,显存减半或减至1/4,需注意量化精度损失(AWQ/GPTQ有针对性优化)。4)推测解码(Speculative Decoding):用小模型草稿+大模型验证,减少大模型解码步数,间接减少KV-Cache写入次数。5)共享前缀:多轮对话中复用历史KV-Cache,增量计算新轮次。6)Window KV-Cache(如Mistral):只保留最近W个token的缓存,固定缓存大小上限。实际部署中常组合使用上述策略。