缩放点积注意力中温度参数的作用与softmax平滑

Question

除除以√d_k外，注意力中温度参数（temperature）也能调节softmax的分布。请解释温度参数在注意力中的作用，为什么有时需要降低温度（使分布sharp）或升高温度（使分布smooth），以及在实际LLM推理中如何调节。。AI 面试题

小字辈 · Accepted Answer

温度τ在注意力中的位置：score'_ij = (q_i·k_j) / (√d_k · τ)。低温（τ<1）：softmax分布更sharp（集中于少数高分数位置），相当于置信度更高的注意力权重，适用于精度要求高、需要聚焦的场景（如翻译中对齐任务）。高温（τ>1）：softmax更smooth（分布均匀），信息从更多位置融合，适用于模型不确定性高、需要平滑推理的场景。实际LLM推理：1）解码时的温度参数通常作用于softmax前的logits（非注意力），控制生成多样性；2）注意力温度调节是YaRN解决RoPE外推问题的关键——外推后注意力熵升高，通过降低温度恢复sharp分布；3）训练时也可使用attention temperature（如T5的加速训练技巧）。调节原则：模型在训练时学习的注意力分布对应τ=1，推理时偏离这个值需要谨慎。注意力温度调节与生成温度调节是两个独立概念。

缩放点积注意力中温度参数的作用与softmax平滑

回答

小字辈