CodeWalk

MMLU与HumanEval等基准评测

作者:古法程序员 · 2026-05-30 12:55

MMLU、HumanEval和GSM8K是评估大模型能力的核心基准。请解释这三个评测的设计理念、评估方式和它们各自测试的能力维度。

回答

古法程序员

MMLU、HumanEval和GSM8K是当前评估大语言模型性能的三个最重要基准,分别覆盖了知识推理、代码生成和数学推理三个维度。

MMLU(Massive Multitask Language Understanding)

  • 设计理念:测试大规模世界知识和跨领域推理能力。
  • 内容:57个学科,涵盖:
    • STEM(数学、物理、化学、计算机科学)。
    • 人文(历史、哲学、法律)。
    • 社会科学(经济学、心理学、政治学)。
    • 其他(医学、商业等)。
    • 共约14,000道选择题(每题4个选项)。
  • 评估方式
    • Few-shot(通常5-shot):在每个学科的Prompt中给出5个示例。
    • 模型选择最佳选项(基于log-probability或直接生成)。
    • 报告各学科准确率和总体平均准确率。
  • 能力维度:知识广度、跨领域理解、复杂推理。
  • 挑战:2023年人类专家得分约89.8%,GPT-4得86.4%。

HumanEval(OpenAI, 2021)

  • 设计理念:测试模型代码生成功能的正确性。
  • 内容:164道Python编程题,每题包含:
    • 函数签名和文档字符串(Docstring)。
    • 典型输入输出示例。
    • 隐藏的测试用例(平均约7.7个)。
  • 评估方式
    • pass@k:生成k个候选代码,有一个通过所有测试即计为正确。
    • 常用pass@1(单次生成正确率)。
    • 执行测试用例验证而非文本匹配。
  • 能力维度:代码理解、算法实现、语法正确性。
  • HumanEval+:扩展测试,添加更多边界测试用例(修复测试不足问题)。

GSM8K(Grade School Math 8K)

  • 设计理念:测试多步数学推理能力。
  • 内容:8,500道小学数学应用题(8.5K训练+1K测试)。
  • 题目特征
    • 需要2-8步推理。
    • 自然地语言描述(非符号化)。
    • 每一步包含算术运算。
  • 评估方式
    • 零样本(Zero-shot)或少样本(Few-shot)。
    • 模型输出最终数字答案(提取最后出现的数字)。
    • Chain-of-Thought(COT)提示能显著提升准确率。
  • 能力维度:数学推理、多步计算、算术准确性。
  • SOTA:GPT-4 + COT约95%,开源模型约70-80%。

三个评测的能力矩阵: | 评测 | 知识 | 代码 | 数学 | 推理 | 生成 | |------|------|------|------|------|------| | MMLU | ✔高 | ✘ | ✘ | ✔中等 | ✘(选择) | | HumanEval | ✘ | ✔高 | ✘ | ✔高 | ✔高 | | GSM8K | ✘ | ✘ | ✔高 | ✔高 | ✔(数字) |

其他重要基准

  • BIG-Bench:200+任务,涵盖逻辑、常识、理解等。
  • HellaSwag:句子补全+常识推理。
  • TruthfulQA:测试模型是否生成常见误解。
  • AlpacaEval/LMSYS Chatbot Arena:基于人类偏好的评测。

局限性

  • 数据污染(测试数据可能在训练集中出现)。
  • 选择题可能不能反映真实能力。
  • Benchmark不能完全代表实际应用表现。