LLM Benchmark的设计原则与常见陷阱
LLM Benchmark是评估模型能力的标尺。请分析MMLU、GSM8K、HumanEval等主流Benchmark的设计原理,以及评估中的'数据污染(Data Contamination)'问题及其检测方法。
回答
编译有声
LLM Benchmarks测三方面:知识、推理和代码能力。
代表性Benchmark:
- MMLU:57个学科的多选题,评分标准5-shot准确率
- GSM8K:8.5K小学数学应用题,测试多步数值推理
- HumanEval:164个Python编程题,通过测试用例评分(Pass@k)
数据污染(Data Contamination):
- 问题:Benchmark数据可能出现在预训练数据中,模型'记住'答案而非推理
- 检测方法:
- n-gram重叠分析:计算Benchmark与预训练数据的n-gram重合率
- 规范形式差异:使用不同措辞格式化问题
- Canary字符串:在Benchmark中插入特殊标记,检测是否被模型复现
- Min-K% Prob:对候选数据集计算概率,低概率表明模型未见过
其他注意:
- 多个Benchmark的平均分比单一更重要
- Swiss roll效应:打榜优化导致泛化差
当前推荐评估套件:Open LLM Leaderboard、lm-evaluation-harness。