Chain-of-Thought推理的原理与变体
Chain-of-Thought(思维链)是提升LLM推理能力的关键Prompt技术。请解释Zero-shot CoT('Let's think step by step')原理、Few-shot CoT的示例设计,以及Self-Consistency(自一致性)如何提升推理可靠性。
回答
屠龙少年
CoT通过引导LLM生成中间推理步骤,提升复杂推理任务的性能。
Zero-shot CoT:
- 技巧:在Prompt末尾追加 'Let's think step by step.'
- 效果:GSM8K准确率从18%提升至78%(GPT-3)
Few-shot CoT:
- 提供2-3个包含完整推理过程和答案的示例
- 关键:推理步骤必须清晰、正确
- 效果:GSM8K准确率从78%提升至92%(PaLM)
Self-Consistency(自一致性):
- 方法:对同一问题多次采样CoT(温度>0),生成多条推理链
- 投票:选择出现频率最高的最终答案
- 原理:正确推理往往趋向一致,错误推理随机多样
- 效果:GSM8K:78%(单CoT) → 89%(自一致性)
其他CoT变体:
- CoT-SC:Self-Consistency
- Auto-CoT:自动生成示例,减少人工标注
- Complexity-based CoT:从简单到复杂逐步推理
- Least-to-most:先解决子问题再解决主问题
CoT是Prompt Engineering中最基础也最有效的方法之一,几乎成为所有推理任务的标配。