Transformer的编码器-解码器整体数据流

Question

请完整描述Transformer编码器-解码器在训练和推理时的数据流。以「我愛自然語言處理 → I love NLP」为例，从输入Embedding到输出逐个token生成，说明每一步的作用。。AI 面试题。Google 面试题

我是大山 · Accepted Answer

编码器：1）输入「我愛自然語言處理」经过Tokenization+Embedding+位置编码；2）经过6层编码器层（每层：Multi-Head Self-Attention + Add&Norm + FFN + Add&Norm），输出为编码器隐状态（序列长度×d_model）。解码器训练：1）目标「 I love NLP 」经过输入表示；2）经过6层解码器层（每层：Masked Self-Attention + Add&Norm + Cross-Attention + Add&Norm + FFN + Add&Norm），Cross-Attention的K/V来自编码器输出；3）线性投影到词表维度，softmax输出概率。推理（自回归）：1）输入「」；2）解码器生成「I」的概率分布，选择「I」；3）将「I」拼接到输入，解码器生成「love」；4）重复直到生成「」。每一步的Cross-Attention都使用编码器输出作为K/V。

Transformer的编码器-解码器整体数据流

回答

我是大山