GPT自回归语言模型与单向Attention的设计

Question

GPT系列采用自回归语言模型和单向注意力机制。请解释为什么GPT只能看到上文（左上下文），这种设计在生成任务中的优势，以及与BERT双向建模的关键差异。。AI 面试题。OpenAI 面试题

小字辈 · Accepted Answer

GPT的自回归语言模型通过最大化P(x_t|x_{<t})来训练，即每个token只关注其左侧token。实现上采用Causal Mask（上三角掩码），使得位置i只能看到≤i的位置。核心优势：1）天然适合文本生成（从左到右逐词生成）；2）训练和推理目标一致（都按自回归方式预测下一个token）；3）零样本/少样本学习能力（GPT-3后展现），因训练时也学习到上下文模式。与BERT差异：GPT是单向（左→右），BERT是双向（左右文都看）。BERT更适合理解任务（分类、抽取），GPT更适合生成任务。本质上两者关注的任务类型不同：BERT做表示学习，GPT做序列概率建模。GPT-3/4的in-context learning能力证明自回归模型也能在理解任务上表现优秀。

GPT自回归语言模型与单向Attention的设计

回答

小字辈