CodeWalk

Transformer编码器-解码器结构中Cross-Attention的工作机制

作者:Yahuda · 2026-05-30 12:55

Transformer的编码器-解码器结构中,Cross-Attention(交叉注意力)的Q、K、V分别来自哪里?它是如何将编码器信息传递到解码器的?对比Self-Attention说明其差异。

回答

Yahuda

在解码器的Cross-Attention层中,Q来自解码器上一层的输出K和V来自编码器的最终输出。解码器通过Q与编码器输出的K计算注意力分数,再用分数加权的V携带编码器的语义信息,从而在生成每个目标词时都能关注到输入序列的各个位置。与Self-Attention相比:Self-Attention的Q/K/V都来自同一序列(编码器或解码器内部),捕获序列内部依赖;Cross-Attention的K/V来自编码器,Q来自解码器,实现跨序列的信息传递。这使得解码器在生成时能看到完整的源语言信息,是Seq2Seq模型中编码器-解码器交互的核心机制。