CodeWalk

LLM-as-Judge的评估方法与偏差控制

作者:苦行僧 · 2026-05-30 12:55

LLM-as-Judge使用大语言模型自动评估生成文本的质量。请解释其工作原理(评分/对比/多维度),以及位置偏差、绳长偏差和自偏爱偏差(LLM偏爱自己的输出)的缓解策略。

回答

苦行僧

LLM-as-Judge(2023, LMSYS)使用GPT-4/Turbo等模型作为自动化评估器。

三种模式

  1. 评分模式(Single Score):对单个回答打分(1-10分)
  2. 对比模式(Pairwise):给出两个回答,选择更好的
  3. 多维度(G-Eval风格):对n个维度逐一评分

三类偏差及缓解策略

1. 位置偏差(Position Bias)

  • 现象:LLM倾向于选择列表中的第一个或最后一个回答
  • 缓解:交换A/B位置取两次结果的平均(对称评估)

2. 绳长偏差(Verbosity Bias)

  • 现象:LLM倾向于给更长的回答更高分
  • 缓解:在Prompt中明确'请不要因为长度而偏袒',控制回答长度

3. 自偏爱偏差(Self-Enhancement Bias)

  • 现象:GPT-4作为Judge时偏爱GPT-4的输出
  • 缓解:使用独立的评估LLM(如Claude评估GPT-4),匿名化去除模型标识

G-Eval(2023):基于GPT-4链式思维的评估框架,通过概率归一化输出连续评分。

实践建议

  • 至少使用3个不同LLM作为Judge投票
  • 人工抽样验证(按10%比例)

LLM-as-Judge成本低、速度快,接近人工一致性(kappa≈0.6-0.7)。