Sliding Window Attention的工作原理与优势

Question

Sliding Window Attention（滑动窗口注意力）如何工作？它在大语言模型中的优势是什么？Mistral 7B使用了这种机制，请解释它的设计细节和如何保证长距离依赖捕获能力。。AI 面试题。Mistral AI 面试题

苦行僧 · Accepted Answer

Sliding Window Attention限制每个token只与前后W个token计算注意力（局部窗口），复杂度从O(N²)降为O(N·W)。优点：显著减少计算量和内存占用，支持更长序列处理。Mistral 7B使用W=4096的滑动窗口。为保证长距离依赖捕获，Mistral采用层级叠加：在L层Transformer中，第i层能关注的范围为i×(W-1)，通过多层叠加实现等效全局感受野（L层可覆盖L×W范围）。此外Mistral还配合Rolling Buffer Cache技术，固定KV-Cache大小（只保留最近W个token的KV），进一步减少显存占用。相对全注意力，窗口注意力在长文本任务中性能差距很小。

Sliding Window Attention的工作原理与优势

回答

苦行僧