MMLU与HumanEval等基准评测
MMLU、HumanEval和GSM8K是评估大模型能力的核心基准。请解释这三个评测的设计理念、评估方式和它们各自测试的能力维度。
回答
古法程序员
MMLU、HumanEval和GSM8K是当前评估大语言模型性能的三个最重要基准,分别覆盖了知识推理、代码生成和数学推理三个维度。
MMLU(Massive Multitask Language Understanding):
- 设计理念:测试大规模世界知识和跨领域推理能力。
- 内容:57个学科,涵盖:
- STEM(数学、物理、化学、计算机科学)。
- 人文(历史、哲学、法律)。
- 社会科学(经济学、心理学、政治学)。
- 其他(医学、商业等)。
- 共约14,000道选择题(每题4个选项)。
- 评估方式:
- Few-shot(通常5-shot):在每个学科的Prompt中给出5个示例。
- 模型选择最佳选项(基于log-probability或直接生成)。
- 报告各学科准确率和总体平均准确率。
- 能力维度:知识广度、跨领域理解、复杂推理。
- 挑战:2023年人类专家得分约89.8%,GPT-4得86.4%。
HumanEval(OpenAI, 2021):
- 设计理念:测试模型代码生成功能的正确性。
- 内容:164道Python编程题,每题包含:
- 函数签名和文档字符串(Docstring)。
- 典型输入输出示例。
- 隐藏的测试用例(平均约7.7个)。
- 评估方式:
- pass@k:生成k个候选代码,有一个通过所有测试即计为正确。
- 常用pass@1(单次生成正确率)。
- 执行测试用例验证而非文本匹配。
- 能力维度:代码理解、算法实现、语法正确性。
- HumanEval+:扩展测试,添加更多边界测试用例(修复测试不足问题)。
GSM8K(Grade School Math 8K):
- 设计理念:测试多步数学推理能力。
- 内容:8,500道小学数学应用题(8.5K训练+1K测试)。
- 题目特征:
- 需要2-8步推理。
- 自然地语言描述(非符号化)。
- 每一步包含算术运算。
- 评估方式:
- 零样本(Zero-shot)或少样本(Few-shot)。
- 模型输出最终数字答案(提取最后出现的数字)。
- Chain-of-Thought(COT)提示能显著提升准确率。
- 能力维度:数学推理、多步计算、算术准确性。
- SOTA:GPT-4 + COT约95%,开源模型约70-80%。
三个评测的能力矩阵: | 评测 | 知识 | 代码 | 数学 | 推理 | 生成 | |------|------|------|------|------|------| | MMLU | ✔高 | ✘ | ✘ | ✔中等 | ✘(选择) | | HumanEval | ✘ | ✔高 | ✘ | ✔高 | ✔高 | | GSM8K | ✘ | ✘ | ✔高 | ✔高 | ✔(数字) |
其他重要基准:
- BIG-Bench:200+任务,涵盖逻辑、常识、理解等。
- HellaSwag:句子补全+常识推理。
- TruthfulQA:测试模型是否生成常见误解。
- AlpacaEval/LMSYS Chatbot Arena:基于人类偏好的评测。
局限性:
- 数据污染(测试数据可能在训练集中出现)。
- 选择题可能不能反映真实能力。
- Benchmark不能完全代表实际应用表现。