CodeWalk

GPT自回归语言模型与单向Attention的设计

作者:小字辈 · 2026-05-30 12:55

GPT系列采用自回归语言模型和单向注意力机制。请解释为什么GPT只能看到上文(左上下文),这种设计在生成任务中的优势,以及与BERT双向建模的关键差异。

回答

小字辈

GPT的自回归语言模型通过最大化P(x_t|x_{<t})来训练,即每个token只关注其左侧token。实现上采用Causal Mask(上三角掩码),使得位置i只能看到≤i的位置。核心优势:1)天然适合文本生成(从左到右逐词生成);2)训练和推理目标一致(都按自回归方式预测下一个token);3)零样本/少样本学习能力(GPT-3后展现),因训练时也学习到上下文模式。与BERT差异:GPT是单向(左→右),BERT是双向(左右文都看)。BERT更适合理解任务(分类、抽取),GPT更适合生成任务。本质上两者关注的任务类型不同:BERT做表示学习,GPT做序列概率建模。GPT-3/4的in-context learning能力证明自回归模型也能在理解任务上表现优秀。