Sliding Window Attention的工作原理与优势
Sliding Window Attention(滑动窗口注意力)如何工作?它在大语言模型中的优势是什么?Mistral 7B使用了这种机制,请解释它的设计细节和如何保证长距离依赖捕获能力。
回答
苦行僧
Sliding Window Attention限制每个token只与前后W个token计算注意力(局部窗口),复杂度从O(N²)降为O(N·W)。优点:显著减少计算量和内存占用,支持更长序列处理。Mistral 7B使用W=4096的滑动窗口。为保证长距离依赖捕获,Mistral采用层级叠加:在L层Transformer中,第i层能关注的范围为i×(W-1),通过多层叠加实现等效全局感受野(L层可覆盖L×W范围)。此外Mistral还配合Rolling Buffer Cache技术,固定KV-Cache大小(只保留最近W个token的KV),进一步减少显存占用。相对全注意力,窗口注意力在长文本任务中性能差距很小。