GPQA:一个研究生水平的谷歌可证问答基准

主要观点:提出 GPQA 这一具有挑战性的数据集,包含 448 道由生物、物理和化学领域专家撰写的多项选择题,问题质量高且极难,专家准确率 65%(扣除事后指出的明显错误后为 74%),高技能非专家验证者准确率仅 34%,即便有 30 多分钟不限网访问权限,对最先进 AI 系统也难,基于 GPT-4 的最强基线准确率 39%,若要让未来 AI 系统帮助回答难题,需开发可扩展的监督方法让人类监督其输出,即使监督者技能知识丰富也可能困难,该数据集的难度可用于开展现实可扩展的监督实验,以帮助人类专家从超越人类能力的 AI 系统获取真实信息。
关键信息:有 28 页、5 幅图、7 个表,涉及人工智能(cs.AI)和计算与语言(cs.CL)领域,可引用[arXiv:2311.12022](或[arXiv:2311.12022v1]),通过 DataCite 获得 arXiv 发布的 DOI,提交历史为 David Rein 于 2023 年 11 月 20 日 18:57:34 UTC 提交(7,790 KB)。
重要细节:数据集由领域专家撰写,专家和非专家准确率数据,对 AI 系统的测试结果,以及关于开发监督方法的需求和可开展实验的阐述等。

阅读 60
0 条评论