Prompt Engineering与In-context Learning的原理

Question

GPT-3展现了强大的In-context Learning能力。请解释In-context Learning的实现机制，它与传统Fine-tuning的本质区别是什么？说明Zero-shot、One-shot、Few-shot三种设置的差异。。AI 面试题。OpenAI 面试题

Yahuda · Accepted Answer

In-context Learning（ICL）：在输入中提供任务描述和若干示例，模型自动「理解」任务模式并完成新示例。其机制仍在研究，主流观点认为：1）前向传播中注意力机制自动将示例中的模式提取并应用到新输入；2）预训练中模型学到了大量隐式的任务格式和模式匹配能力。与Fine-tuning本质区别：ICL不更新模型参数，仅改变输入上下文；Fine-tuning更新模型参数。ICL的成本仅是推理计算，Fine-tuning需要额外训练。三种设置：Zero-shot：无示例，仅靠任务描述；One-shot：提供一个示例；Few-shot：提供若干示例（通常≤64）。示例越多效果越好，但受限于上下文窗口长度。ICL是LLM涌现能力，小模型（<1B）表现不佳。

Prompt Engineering与In-context Learning的原理

回答

Yahuda