MMLU与HumanEval等基准评测

Question

MMLU、HumanEval和GSM8K是评估大模型能力的核心基准。请解释这三个评测的设计理念、评估方式和它们各自测试的能力维度。。AI 面试题

古法程序员 · Accepted Answer

MMLU、HumanEval和GSM8K是当前评估大语言模型性能的三个最重要基准，分别覆盖了知识推理、代码生成和数学推理三个维度。 MMLU（Massive Multitask Language Understanding）： 设计理念：测试大规模世界知识和跨领域推理能力。 内容：57个学科，涵盖： STEM（数学、物理、化学、计算机科学）。 人文（历史、哲学、法律）。 社会科学（经济学、心理学、政治学）。 其他（医学、商业等）。 共约14,000道选择题（每题4个选项）。 评估方式： Few-shot（通常5-shot）：在每个学科的Prompt中给出5个示例。 模型选择最佳选项（基于log-probability或直接生成）。 报告各学科准确率和总体平均准确率。 能力维度：知识广度、跨领域理解、复杂推理。 挑战：2023年人类专家得分约89.8%，GPT-4得86.4%。 HumanEval（OpenAI, 2021）： 设计理念：测试模型代码生成功能的正确性。 内容：164道Python编程题，每题包含： 函数签名和文档字符串（Docstring）。 典型输入输出示例。 隐藏的...

MMLU与HumanEval等基准评测

回答

古法程序员