1

image.png
大模型评测最新排名,信息来源于https://lifearchitect.ai/

2025年1/29发布的Qwen2.5-Max和DeepSeek-R1均上榜

Qwen2.5-Max:https://mp.weixin.qq.com/s/JZQr42rKhJ42635ShSQ5XQ
DeepSeek-R1:https://chat.deepseek.com/

大模型权威评测集科普

在大模型(如 GPT、Claude、Deepseek 等)的研发和评估中,评测集(Benchmark)是衡量模型性能的核心工具。以下是主流大模型评测集的详细介绍,包括 MMLUGPQA 的核心信息。


主流大模型评测集概览

评测集名称英文全称来源厂商/机构核心评测意图
MMLUMassive Multitask Language UnderstandingUC Berkeley 等学术团队评估多领域知识理解和推理能力
GPQAGeneral Purpose Question Answering学术研究团队(暂无明确厂商)测试复杂问题的跨领域回答能力
C-EvalChinese Evaluation Benchmark上海交通大学、清华大学评估中文场景下的综合能力
HumanEvalHuman EvaluationOpenAI评估代码生成能力
GSM8KGrade School Math 8KOpenAI测试小学数学推理能力
Big-BenchBeyond the Imitation Game BenchmarkGoogle Research 等多维度挑战模型的通用能力
SuperGLUESuper General Language Understanding纽约大学等学术机构自然语言理解的高级任务评估
SQuADStanford Question Answering Dataset斯坦福大学机器阅读理解能力评估
DROPDiscrete Reasoning Over Paragraphs艾伦人工智能研究院(AI2)测试段落离散推理能力
WMTWorkshop on Machine Translation国际学术会议机器翻译质量评估

核心评测集详解

1. MMLU(Massive Multitask Language Understanding)

  • 来源厂商/机构
    由 UC Berkeley、Meta AI 等学术团队联合开发。
  • 核心评测意图
    测试模型在 57 个学科领域 的多任务理解和推理能力,涵盖从基础学科到专业领域的广泛知识。MMLU是一个大规模多任务语言理解评测集,设计用于评估模型在多个任务上的通用性。这些任务涵盖了诸如历史、数学、自然科学、社会科学、计算机科学等广泛领域。
    MMLU的主要特点包括:

      多样性与规模:MMLU包含57个任务,覆盖各种领域的中级专业知识。
      任务难度:任务从中学水平到大学水平不等,因而检测模型在不同难度水平下的表现。
      评估维度:评估模型的多任务学习能力以及在已知背景下应用知识的能力。MMLU的设计初衷是提高语言模型在专门领域任务上的表现,并提供一种衡量其能力的手段。
    
  • 关键特点

    • 任务类型:选择题(4 选 1)
    • 覆盖领域:STEM(科学、技术、工程、数学)、人文、社会科学、职业考试(如法律、医学)
    • 评估指标:准确率(Accuracy)
    • 挑战性:需模型具备跨领域知识整合和复杂推理能力
  • 典型应用
    GPT-4、Claude 3、Deepseek-R1 等模型通过 MMLU 展示其通用能力。

2. GPQA(General Purpose Question Answering)

  • 来源厂商/机构
    由学术界提出,暂无明确商业厂商支持,常用于开放式研究。
  • 核心评测意图
    评估模型在 复杂、开放式问题 上的回答能力,强调跨领域知识整合和深度推理。GPQA(通用问答)评测集主要用于衡量大模型在问答系统中的性能。此评测集的设计旨在测试模型处理不同类型问题的能力,包括事实性、推理性和常识性问题。
    GPQA评测集的特点包括:

      问题广泛性:问题类别多样,涵盖事实性、推理和常识性问题,确保模型能在各种情况下提供准确回答。
      背景知识:部分问题需要应用世界知识或者多步推理能力,测试模型的深度理解能力。
      答案质量:不仅评估正确性,还评估答案的简洁性和清晰性。

    GPQA的目标是提供一个广泛应用的问题集来测试语言模型的回答能力,以推动更智能、通用的问答系统的发展。

  • 关键特点

    • 任务类型:开放式问答
    • 覆盖领域:科学、技术、历史、文化等需多学科知识的问题
    • 评估指标:回答的准确性、逻辑性和完整性(常通过人工评分)
    • 挑战性:问题设计复杂,需模型结合上下文进行多步推理
  • 典型应用
    Claude 3.5 Sonnet、GPT-4 等模型通过 GPQA 展示其高阶推理能力。

大模型评测集基础知识

评测集的核心作用

  1. 标准化评估:提供统一的任务和指标,避免模型对比的主观偏差。
  2. 能力拆解:通过细分任务(如数学、代码、语言理解)定位模型强项与短板。
  3. 研究导向:推动模型改进方向(例如增强逻辑推理或多模态能力)。

评测集的分类

分类代表评测集特点
通用能力评测MMLU、GPQA多领域、多任务综合评估
领域专项评测C-Eval(中文)、GSM8K(数学)聚焦特定语言或学科
任务专项评测HumanEval(代码)、SQuAD(问答)针对单一任务类型设计

常见评估指标

  1. 准确率(Accuracy):分类任务中正确预测的比例。
  2. F1 分数:平衡精确率(Precision)和召回率(Recall),用于分类和问答任务。
  3. BLEU/ROUGE:文本生成任务的质量评估(如翻译、摘要)。
  4. 人工评分:开放式任务(如 GPQA)中由人类专家评估回答质量。

总结

  • MMLUGPQA 是评估大模型综合能力的核心评测集,前者强调多领域知识,后者侧重复杂问题推理。
  • 评测集的多样性(如 C-Eval 针对中文、HumanEval 针对代码)帮助全面衡量模型能力。
  • 厂商和学术机构通过“打榜”评测集展示模型优势(如 Deepseek-R1 在 MMLU 的突出表现)。

誉儿
178 声望1.2k 粉丝