GPT-3的In-context Learning涌现能力分析

Question

GPT-3展现了In-context Learning（ICL）这一涌现能力（Emergent Ability）。请解释为什么小模型（如GPT-1/2小版本）没有ICL能力而大模型有？涌现的可能原因是什么？。AI 面试题。OpenAI 面试题

编译有声 · Accepted Answer

涌现现象：模型规模超过某个阈值（约6.7B）后，ICL性能急剧提升。可能原因：1）大规模预训练数据：大模型在更多样化的数据中看到更多「模式匹配」示例，学会识别并利用输入中的模式（即隐式的元学习）。2）注意力头的冗余和分工：大模型有更多注意力头，可以并行执行「示例模式提取」和「预测」两个任务。3）参数容量：大模型的参数容量更大，可以隐式存储更多「任务模板」。4）Vaswani等提出的「归纳头」（Induction Heads）理论：ICL能力源于Transformer中层间注意力模式的组合（复制+偏移），大模型在训练后自然形成归纳头，参数规模足够时才会出现。并不是所有能力都有「涌现」门槛（如句法能力在小模型也有），ICL是典型的语言模型涌现能力。

GPT-3的In-context Learning涌现能力分析

回答

编译有声