KV-Cache的显存优化策略总结

Question

LLM推理中KV-Cache显存占用巨大。请总结主要的KV-Cache优化策略（MQA/GQA、PagedAttention、KV量化、多步推测解码等），分析每种策略的原理和效果。。AI 面试题

孤独的心 · Accepted Answer

1）MQA/GQA：减少K/V头数（从h降为1或g组），KV-Cache直接减少为1/h或g/h，对70B模型减少~80%缓存。2）PagedAttention：非连续块分配消除碎片，显存利用率从40%→95%，同等显存支持更大batch。3）KV量化：将FP16的KV-Cache量化为INT8/INT4/NF4，显存减半或减至1/4，需注意量化精度损失（AWQ/GPTQ有针对性优化）。4）推测解码（Speculative Decoding）：用小模型草稿+大模型验证，减少大模型解码步数，间接减少KV-Cache写入次数。5）共享前缀：多轮对话中复用历史KV-Cache，增量计算新轮次。6）Window KV-Cache（如Mistral）：只保留最近W个token的缓存，固定缓存大小上限。实际部署中常组合使用上述策略。

KV-Cache的显存优化策略总结

回答

孤独的心