Transformer编码器-解码器结构中Cross-Attention的工作机制

Question

Transformer的编码器-解码器结构中，Cross-Attention（交叉注意力）的Q、K、V分别来自哪里？它是如何将编码器信息传递到解码器的？对比Self-Attention说明其差异。。AI 面试题。Google 面试题

Yahuda · Accepted Answer

在解码器的Cross-Attention层中，Q来自解码器上一层的输出，K和V来自编码器的最终输出。解码器通过Q与编码器输出的K计算注意力分数，再用分数加权的V携带编码器的语义信息，从而在生成每个目标词时都能关注到输入序列的各个位置。与Self-Attention相比：Self-Attention的Q/K/V都来自同一序列（编码器或解码器内部），捕获序列内部依赖；Cross-Attention的K/V来自编码器，Q来自解码器，实现跨序列的信息传递。这使得解码器在生成时能看到完整的源语言信息，是Seq2Seq模型中编码器-解码器交互的核心机制。

Transformer编码器-解码器结构中Cross-Attention的工作机制

回答

Yahuda