ALiBi位置编码的线性偏置机制

Question

ALiBi（Attention with Linear Biases）是一种替代位置编码的方案。请解释其核心思想：为什么在注意力分数上添加线性偏置就能编码位置信息？ALiBi如何支持长度外推？与RoPE相比的优缺点是什么？。AI 面试题。MosaicML 面试题

编译有声 · Accepted Answer

核心思想：ALiBi直接在注意力分数（Q·K）上加一个与位置距离成线性关系的偏置项：score(i,j) = q_i·k_j - m·|i-j|，其中m是与注意力头相关的斜率。偏置项随距离增大而减小，使模型「偏爱邻近token」。长度外推：训练时不需要学习位置编码参数，任何长度的序列都可直接使用公式计算偏置，自然支持外推，无需额外微调。vs RoPE：ALiBi实现更简单（仅需加一个偏置矩阵，无复杂旋转操作）；在短训练长推理的外推实验中ALiBi通常优于RoPE。但RoPE的理论基础更完善（旋转矩阵编码相对位置），且在长序列微调（NTK-aware/YaRN调整）后RoPE的扩展效果更好。ALiBi已被MosaicML的MPT系列使用。

ALiBi位置编码的线性偏置机制

回答

编译有声