GPQA：一个研究生水平的谷歌可证问答基准

发布于 2025-07-27

主要观点：提出 GPQA 这一具有挑战性的数据集，包含 448 道由生物、物理和化学领域专家撰写的多项选择题，问题质量高且极难，专家准确率 65%（扣除事后指出的明显错误后为 74%），高技能非专家验证者准确率仅 34%，即便有 30 多分钟不限网访问权限，对最先进 AI 系统也难，基于 GPT-4 的最强基线准确率 39%，若要让未来 AI 系统帮助回答难题，需开发可扩展的监督方法让人类监督其输出，即使监督者技能知识丰富也可能困难，该数据集的难度可用于开展现实可扩展的监督实验，以帮助人类专家从超越人类能力的 AI 系统获取真实信息。
关键信息：有 28 页、5 幅图、7 个表，涉及人工智能（cs.AI）和计算与语言（cs.CL）领域，可引用[arXiv:2311.12022]（或[arXiv:2311.12022v1]），通过 DataCite 获得 arXiv 发布的 DOI，提交历史为 David Rein 于 2023 年 11 月 20 日 18:57:34 UTC 提交（7,790 KB）。
重要细节：数据集由领域专家撰写，专家和非专家准确率数据，对 AI 系统的测试结果，以及关于开发监督方法的需求和可开展实验的阐述等。

阅读 803