KV-Cache的工作原理与显存占用分析

Question

KV-Cache是Transformer自回归推理中避免重复计算的关键。请解释KV-Cache的数学原理、存储格式(Key/Value矩阵)，以及在大模型推理中的显存占用估算方法。。AI 面试题

屠龙少年 · Accepted Answer

KV-Cache的核心思想：在自回归解码的每一步，保存历史token的Key和Value矩阵，避免每步都重新计算全部attention。 数学原理： Decoder的自注意力计算为 Attention(Q,K,V) = softmax(QK^T/√d)V 在不使用KV-Cache时，每一步都需要计算所有previous tokens的K,V 使用KV-Cache： 第t步，新token的K_t, V_t追加到Cache 计算时：Q_t × [K_1,...,K_t]^T 和 [V_1,...,V_t] 的加权和 省掉了第1到t-1步的全部Key/Value重计算 存储格式： 每层的KV-Cache大小 = 2 × batch_size × seq_len × num_heads × head_dim 通常是FP16/BF16存储 显存估算(以LLaMA-70B为例)： 模型80层，num_heads=64，head_dim=128 单个KV-Cache block(一个token对)： Key: 64 × 128 × 2 bytes = 16,384 bytes ≈ 16KB Val...

KV-Cache的工作原理与显存占用分析

回答

屠龙少年