DeepSeek-V2的Multi-head Latent Attention创新

Question

DeepSeek-V2提出了Multi-head Latent Attention（MLA）。请解释MLA如何通过低秩压缩K/V来减少KV-Cache，与MQA/GQA的异同，以及为什么MLA在保持模型质量的同时大幅降低推理显存。。AI 面试题。DeepSeek 面试题

屠龙少年 · Accepted Answer

MLA核心思想：不是减少注意力头数（MQA/GQA的做法），而是通过低秩压缩减小每个头的K/V维度。具体实现：将高维的K、V投影到一个低维的「潜在空间」（latent space），注意力计算在低维空间中完成，显著降低缓存大小。与MQA/GQA对比：MQA/GQA通过减少K/V头数（跨头共享）降低缓存；MLA通过压缩每个头的K/V维度（维度共享）——两种思路正交，可结合使用。优势：GQA/MQA减少KV头数可能带来精度损失（尤其对推理密集型任务），MLA通过低秩保持信息完整，理论上精度损失更小（类似低秩适应LoRA的思路）。DeepSeek-V2在保持全精度质量的同时，KV-Cache降低到标准MHA的约1/8-1/4。额外好处：MLA的计算也更快（低维投影减少矩阵乘运算量）。MLA是KV-Cache优化的一个重要方向。

DeepSeek-V2的Multi-head Latent Attention创新

回答

屠龙少年