CodeWalk

LLM Benchmark的设计原则与常见陷阱

作者:编译有声 · 2026-05-30 12:55

LLM Benchmark是评估模型能力的标尺。请分析MMLU、GSM8K、HumanEval等主流Benchmark的设计原理,以及评估中的'数据污染(Data Contamination)'问题及其检测方法。

回答

编译有声

LLM Benchmarks测三方面:知识、推理和代码能力。

代表性Benchmark

  1. MMLU:57个学科的多选题,评分标准5-shot准确率
  2. GSM8K:8.5K小学数学应用题,测试多步数值推理
  3. HumanEval:164个Python编程题,通过测试用例评分(Pass@k)

数据污染(Data Contamination)

  • 问题:Benchmark数据可能出现在预训练数据中,模型'记住'答案而非推理
  • 检测方法:
    1. n-gram重叠分析:计算Benchmark与预训练数据的n-gram重合率
    2. 规范形式差异:使用不同措辞格式化问题
    3. Canary字符串:在Benchmark中插入特殊标记,检测是否被模型复现
    4. Min-K% Prob:对候选数据集计算概率,低概率表明模型未见过

其他注意

  • 多个Benchmark的平均分比单一更重要
  • Swiss roll效应:打榜优化导致泛化差

当前推荐评估套件:Open LLM Leaderboard、lm-evaluation-harness。