Encoder-only与Decoder-only架构的统一趋势
近年来LLM的主流架构从Encoder-only(BERT)和Encoder-Decoder(T5)逐渐向Decoder-only(GPT)统一。请分析这种趋势的原因,以及Decoder-only架构在哪些方面相比其他架构有优势。
回答
屠龙少年
统一趋势:GPT-2/3的成功推动了Decoder-only的普及,当前主流LLM(GPT-4、LLaMA、Mistral、Gemini)均为Decoder-only。原因:1)自回归训练和推理一致:预测下一个token的损失函数与文本生成过程天然一致,避免了Encoder-Decoder中编码器和解码器的梯度不对称问题。2)大规模scaling实验验证:DeepMind和Google的研究(Chinchilla、PaLM)表明Decoder-only在同等计算预算下表现最优。3)架构简洁:无需Cross-Attention,参数利用率更高,更易于扩展到超大规模。4)涌现能力:ICL、Chain-of-thought等涌现能力在Decoder-only中表现最明显。但Encoder-only在纯理解任务(分类/序列标注)上仍具优势(因为双向注意力信息更充分),Encoder-Decoder在需要对输入深度理解后再生成的场景(翻译、摘要)仍有价值。T5证明即便在Decoder-only趋势下,NMT任务中Encoder-Decoder仍占优。