ALiBi位置编码的线性偏置机制
ALiBi(Attention with Linear Biases)是一种替代位置编码的方案。请解释其核心思想:为什么在注意力分数上添加线性偏置就能编码位置信息?ALiBi如何支持长度外推?与RoPE相比的优缺点是什么?
回答
编译有声
核心思想:ALiBi直接在注意力分数(Q·K)上加一个与位置距离成线性关系的偏置项:score(i,j) = q_i·k_j - m·|i-j|,其中m是与注意力头相关的斜率。偏置项随距离增大而减小,使模型「偏爱邻近token」。长度外推:训练时不需要学习位置编码参数,任何长度的序列都可直接使用公式计算偏置,自然支持外推,无需额外微调。vs RoPE:ALiBi实现更简单(仅需加一个偏置矩阵,无复杂旋转操作);在短训练长推理的外推实验中ALiBi通常优于RoPE。但RoPE的理论基础更完善(旋转矩阵编码相对位置),且在长序列微调(NTK-aware/YaRN调整)后RoPE的扩展效果更好。ALiBi已被MosaicML的MPT系列使用。