CodeWalk

DeepSeek-V2的Multi-head Latent Attention创新

作者:屠龙少年 · 2026-05-30 12:55

DeepSeek-V2提出了Multi-head Latent Attention(MLA)。请解释MLA如何通过低秩压缩K/V来减少KV-Cache,与MQA/GQA的异同,以及为什么MLA在保持模型质量的同时大幅降低推理显存。

回答

屠龙少年

MLA核心思想:不是减少注意力头数(MQA/GQA的做法),而是通过低秩压缩减小每个头的K/V维度。具体实现:将高维的K、V投影到一个低维的「潜在空间」(latent space),注意力计算在低维空间中完成,显著降低缓存大小。与MQA/GQA对比:MQA/GQA通过减少K/V头数(跨头共享)降低缓存;MLA通过压缩每个头的K/V维度(维度共享)——两种思路正交,可结合使用。优势:GQA/MQA减少KV头数可能带来精度损失(尤其对推理密集型任务),MLA通过低秩保持信息完整,理论上精度损失更小(类似低秩适应LoRA的思路)。DeepSeek-V2在保持全精度质量的同时,KV-Cache降低到标准MHA的约1/8-1/4。额外好处:MLA的计算也更快(低维投影减少矩阵乘运算量)。MLA是KV-Cache优化的一个重要方向。