LLM-as-Judge的评估方法与偏差控制
LLM-as-Judge使用大语言模型自动评估生成文本的质量。请解释其工作原理(评分/对比/多维度),以及位置偏差、绳长偏差和自偏爱偏差(LLM偏爱自己的输出)的缓解策略。
回答
苦行僧
LLM-as-Judge(2023, LMSYS)使用GPT-4/Turbo等模型作为自动化评估器。
三种模式:
- 评分模式(Single Score):对单个回答打分(1-10分)
- 对比模式(Pairwise):给出两个回答,选择更好的
- 多维度(G-Eval风格):对n个维度逐一评分
三类偏差及缓解策略:
1. 位置偏差(Position Bias):
- 现象:LLM倾向于选择列表中的第一个或最后一个回答
- 缓解:交换A/B位置取两次结果的平均(对称评估)
2. 绳长偏差(Verbosity Bias):
- 现象:LLM倾向于给更长的回答更高分
- 缓解:在Prompt中明确'请不要因为长度而偏袒',控制回答长度
3. 自偏爱偏差(Self-Enhancement Bias):
- 现象:GPT-4作为Judge时偏爱GPT-4的输出
- 缓解:使用独立的评估LLM(如Claude评估GPT-4),匿名化去除模型标识
G-Eval(2023):基于GPT-4链式思维的评估框架,通过概率归一化输出连续评分。
实践建议:
- 至少使用3个不同LLM作为Judge投票
- 人工抽样验证(按10%比例)
LLM-as-Judge成本低、速度快,接近人工一致性(kappa≈0.6-0.7)。