Transformer的编码器-解码器整体数据流
请完整描述Transformer编码器-解码器在训练和推理时的数据流。以「我愛自然語言處理 → I love NLP」为例,从输入Embedding到输出逐个token生成,说明每一步的作用。
回答
我是大山
编码器:1)输入「我愛自然語言處理」经过Tokenization+Embedding+位置编码;2)经过6层编码器层(每层:Multi-Head Self-Attention + Add&Norm + FFN + Add&Norm),输出为编码器隐状态(序列长度×d_model)。解码器训练:1)目标「 I love NLP 」经过输入表示;2)经过6层解码器层(每层:Masked Self-Attention + Add&Norm + Cross-Attention + Add&Norm + FFN + Add&Norm),Cross-Attention的K/V来自编码器输出;3)线性投影到词表维度,softmax输出概率。推理(自回归):1)输入「」;2)解码器生成「I」的概率分布,选择「I」;3)将「I」拼接到输入,解码器生成「love」;4)重复直到生成「」。每一步的Cross-Attention都使用编码器输出作为K/V。