CodeWalk

GPT-3的In-context Learning涌现能力分析

作者:编译有声 · 2026-05-30 12:55

GPT-3展现了In-context Learning(ICL)这一涌现能力(Emergent Ability)。请解释为什么小模型(如GPT-1/2小版本)没有ICL能力而大模型有?涌现的可能原因是什么?

回答

编译有声

涌现现象:模型规模超过某个阈值(约6.7B)后,ICL性能急剧提升。可能原因:1)大规模预训练数据:大模型在更多样化的数据中看到更多「模式匹配」示例,学会识别并利用输入中的模式(即隐式的元学习)。2)注意力头的冗余和分工:大模型有更多注意力头,可以并行执行「示例模式提取」和「预测」两个任务。3)参数容量:大模型的参数容量更大,可以隐式存储更多「任务模板」。4)Vaswani等提出的「归纳头」(Induction Heads)理论:ICL能力源于Transformer中层间注意力模式的组合(复制+偏移),大模型在训练后自然形成归纳头,参数规模足够时才会出现。并不是所有能力都有「涌现」门槛(如句法能力在小模型也有),ICL是典型的语言模型涌现能力。