GPT与BERT架构核心差异及应用场景选择

Question

请系统的对比GPT（Decoder-only）和BERT（Encoder-only）在架构设计、预训练目标、注意力机制、适用任务四个维度上的差异，并给出任务选型建议。。AI 面试题

古法程序员 · Accepted Answer

维度GPT（Decoder-only）BERT（Encoder-only） 注意力单向（Causal Mask）双向（全注意力） 预训练目标自回归语言模型（预测下一个token）MLM+NSP（掩码恢复+句子关系） 参数利用每个token预测所有token仅预测15%被掩码token 生成/理解擅长生成擅长理解 任务选型：文本生成（翻译/摘要/对话）→ GPT；分类/序列标注/语义匹配 → BERT；既要理解又要生成 → Encoder-Decoder（T5/BART）。但GPT-3+通过ICL在理解任务上也表现优异，趋势是Decoder-only统一架构。BERT在低资源分类任务上仍更有优势（收敛更快，数据效率更高）。同时GPT的「continue writing」能力使其在长文本生成场景独占优势。

维度	GPT（Decoder-only）	BERT（Encoder-only）
注意力	单向（Causal Mask）	双向（全注意力）
预训练目标	自回归语言模型（预测下一个token）	MLM+NSP（掩码恢复+句子关系）
参数利用	每个token预测所有token	仅预测15%被掩码token
生成/理解	擅长生成	擅长理解

GPT与BERT架构核心差异及应用场景选择

回答

古法程序员