LLM Benchmark的设计原则与常见陷阱

Question

LLM Benchmark是评估模型能力的标尺。请分析MMLU、GSM8K、HumanEval等主流Benchmark的设计原理，以及评估中的'数据污染(Data Contamination)'问题及其检测方法。。AI 面试题

编译有声 · Accepted Answer

LLM Benchmarks测三方面：知识、推理和代码能力。 代表性Benchmark： MMLU：57个学科的多选题，评分标准5-shot准确率 GSM8K：8.5K小学数学应用题，测试多步数值推理 HumanEval：164个Python编程题，通过测试用例评分(Pass@k) 数据污染(Data Contamination)： 问题：Benchmark数据可能出现在预训练数据中，模型'记住'答案而非推理 检测方法： n-gram重叠分析：计算Benchmark与预训练数据的n-gram重合率 规范形式差异：使用不同措辞格式化问题 Canary字符串：在Benchmark中插入特殊标记，检测是否被模型复现 Min-K% Prob：对候选数据集计算概率，低概率表明模型未见过 其他注意： 多个Benchmark的平均分比单一更重要 Swiss roll效应：打榜优化导致泛化差 当前推荐评估套件：Open LLM Leaderboard、lm-evaluation-harness。

LLM Benchmark的设计原则与常见陷阱

回答

编译有声