CodeWalk

缩放点积注意力中温度参数的作用与softmax平滑

作者:小字辈 · 2026-05-30 12:55

除除以√d_k外,注意力中温度参数(temperature)也能调节softmax的分布。请解释温度参数在注意力中的作用,为什么有时需要降低温度(使分布sharp)或升高温度(使分布smooth),以及在实际LLM推理中如何调节。

回答

小字辈

温度τ在注意力中的位置:score'_ij = (q_i·k_j) / (√d_k · τ)。低温(τ<1):softmax分布更sharp(集中于少数高分数位置),相当于置信度更高的注意力权重,适用于精度要求高、需要聚焦的场景(如翻译中对齐任务)。高温(τ>1):softmax更smooth(分布均匀),信息从更多位置融合,适用于模型不确定性高、需要平滑推理的场景。实际LLM推理:1)解码时的温度参数通常作用于softmax前的logits(非注意力),控制生成多样性;2)注意力温度调节是YaRN解决RoPE外推问题的关键——外推后注意力熵升高,通过降低温度恢复sharp分布;3)训练时也可使用attention temperature(如T5的加速训练技巧)。调节原则:模型在训练时学习的注意力分布对应τ=1,推理时偏离这个值需要谨慎。注意力温度调节与生成温度调节是两个独立概念。