GPT与BERT架构核心差异及应用场景选择
请系统的对比GPT(Decoder-only)和BERT(Encoder-only)在架构设计、预训练目标、注意力机制、适用任务四个维度上的差异,并给出任务选型建议。
回答
古法程序员
| 维度 | GPT(Decoder-only) | BERT(Encoder-only) |
|---|---|---|
| 注意力 | 单向(Causal Mask) | 双向(全注意力) |
| 预训练目标 | 自回归语言模型(预测下一个token) | MLM+NSP(掩码恢复+句子关系) |
| 参数利用 | 每个token预测所有token | 仅预测15%被掩码token |
| 生成/理解 | 擅长生成 | 擅长理解 |
任务选型:文本生成(翻译/摘要/对话)→ GPT;分类/序列标注/语义匹配 → BERT;既要理解又要生成 → Encoder-Decoder(T5/BART)。但GPT-3+通过ICL在理解任务上也表现优异,趋势是Decoder-only统一架构。BERT在低资源分类任务上仍更有优势(收敛更快,数据效率更高)。同时GPT的「continue writing」能力使其在长文本生成场景独占优势。