Encoder-only与Decoder-only架构的统一趋势

Question

近年来LLM的主流架构从Encoder-only（BERT）和Encoder-Decoder（T5）逐渐向Decoder-only（GPT）统一。请分析这种趋势的原因，以及Decoder-only架构在哪些方面相比其他架构有优势。。AI 面试题

屠龙少年 · Accepted Answer

统一趋势：GPT-2/3的成功推动了Decoder-only的普及，当前主流LLM（GPT-4、LLaMA、Mistral、Gemini）均为Decoder-only。原因：1）自回归训练和推理一致：预测下一个token的损失函数与文本生成过程天然一致，避免了Encoder-Decoder中编码器和解码器的梯度不对称问题。2）大规模scaling实验验证：DeepMind和Google的研究（Chinchilla、PaLM）表明Decoder-only在同等计算预算下表现最优。3）架构简洁：无需Cross-Attention，参数利用率更高，更易于扩展到超大规模。4）涌现能力：ICL、Chain-of-thought等涌现能力在Decoder-only中表现最明显。但Encoder-only在纯理解任务（分类/序列标注）上仍具优势（因为双向注意力信息更充分），Encoder-Decoder在需要对输入深度理解后再生成的场景（翻译、摘要）仍有价值。T5证明即便在Decoder-only趋势下，NMT任务中Encoder-Decoder仍占优。

Encoder-only与Decoder-only架构的统一趋势

回答

屠龙少年