GPT-3的prompt设计与Few-shot示例选择策略
GPT-3的Few-shot性能高度依赖prompt中示例的选择和排列。请分析:示例的数量、质量、顺序如何影响ICL效果?有哪些自动选择最佳示例的方法(如kNN检索、多样性采样)?
回答
小字辈
示例数量:通常越多越好,但收益递减。8-shot后提升趋缓。示例质量:与测试样本语义相似的示例效果更好(标答正确、任务一致)。示例顺序:非常重要——测试用例放在最后、靠近的示例影响更大。同一个集合的不同顺序可能导致±10%的准确率波动。自动选择方法:1)kNN检索:将测试输入的Embedding在demo库中检索最相似的k个示例;2)多样性采样:选择覆盖不同语义簇的示例,避免冗余;3)困难示例挖掘:选择模型容易出错的示例;4)Learn-to-retrieve(EPR):用可训练的检索器选择最优示例。示例格式化:一致的格式(如「问题→答案」换行)比自由格式好。标签平衡:分类任务中选择正负例均衡的示例。ICL的示例选择本身就是一个活跃的研究方向(如DSPy的自动示例选择)。