Prompt Engineering与In-context Learning的原理
GPT-3展现了强大的In-context Learning能力。请解释In-context Learning的实现机制,它与传统Fine-tuning的本质区别是什么?说明Zero-shot、One-shot、Few-shot三种设置的差异。
回答
Yahuda
In-context Learning(ICL):在输入中提供任务描述和若干示例,模型自动「理解」任务模式并完成新示例。其机制仍在研究,主流观点认为:1)前向传播中注意力机制自动将示例中的模式提取并应用到新输入;2)预训练中模型学到了大量隐式的任务格式和模式匹配能力。与Fine-tuning本质区别:ICL不更新模型参数,仅改变输入上下文;Fine-tuning更新模型参数。ICL的成本仅是推理计算,Fine-tuning需要额外训练。三种设置:Zero-shot:无示例,仅靠任务描述;One-shot:提供一个示例;Few-shot:提供若干示例(通常≤64)。示例越多效果越好,但受限于上下文窗口长度。ICL是LLM涌现能力,小模型(<1B)表现不佳。