Epoch AI 发布 FrontierMath 基准测试
Epoch AI 与世界领先机构的 60 多位数学家合作,推出了 FrontierMath,这是一个旨在评估 AI 系统在高级数学推理方面能力的新基准测试。该基准测试的开发团队包括 14 位国际数学奥林匹克(IMO)金牌得主和一位菲尔兹奖得主,揭示了当前 AI 能力与专家级数学问题解决之间的显著差距,即使最先进的模型也只能解决不到 2% 的问题。
FrontierMath 的特点
FrontierMath 包含数百个原创且极具挑战性的数学问题,涵盖现代数学的多个主要分支,如数论、实分析、代数几何和范畴论。这些问题旨在测试 AI 系统的洞察力,而不仅仅是标准技术或知识。
现有基准测试的局限性
现有的数学基准测试(如 MATH 数据集和 GSM8K)已接近饱和,顶级 AI 模型在这些测试中几乎达到满分。这些测试主要针对高中和本科低年级数学,无法有效区分高级 AI 系统的能力。
FrontierMath 的创新之处
FrontierMath 解决了 AI 评估中的两个关键挑战:现有数学基准测试的饱和和数据污染问题。通过使用全新的、未发表的问题,并引入自动化验证系统,该基准测试确保性能指标真实反映 AI 系统的数学推理能力,而不是对训练数据的模式匹配。
开发过程与质量控制
FrontierMath 的开发过程强调通过多阶段审查系统对大型语言模型(LLM)进行严格的质量控制,包括验证问题的正确性、检查模糊性、评估猜测证明和验证难度评级。每个问题都需要相关数学分支的研究人员投入多个小时甚至数天的时间来解决。
测试结果与 AI 表现
在 FrontierMath 上对领先 AI 模型的测试显示,包括 OpenAI 的 o1-preview、o1-mini 和 GPT-4o,Anthropic 的 Claude 3.5 Sonnet,XAI 的 Grok 2 Beta,以及 Google DeepMind 的 Gemini 1.5 Pro 002 在内的模型,均未能达到 2% 的成功率,凸显了当前 AI 能力与专家级数学问题解决之间的巨大差距。
专家观点与评价
Andrej Karpathy(Eureka Labs 创始人、OpenAI 创始成员)将这一发展置于历史 AI 挑战的背景下,认为这是 Moravec 悖论的体现,即对人类来说简单/困难的任务对计算机来说可能完全不同。他支持创建此类基准测试,同时强调评估 AI 系统在看似“简单”但对机器具有挑战性的任务上的表现的重要性。
Jack Clark(Anthropic 联合创始人)认为,真正的 LLM 怀疑论者如果花费 10 小时尝试让现代 AI 系统完成他们擅长的任务,将会对这些系统的能力感到震惊。
基准测试的局限性
尽管 FrontierMath 在 AI 评估中具有重要意义,但它也存在局限性。其关注自动验证和数值答案,排除了证明写作和开放探索,这些是现代数学研究的重要方面。此外,基准测试的泄漏问题尚未得到解决,LLM 在训练前创建的基准测试上表现更好。
结论与下一步
FrontierMath 为 AI 系统在高级数学推理方面的能力评估提供了一个新的、更具挑战性的标准。研究人员和组织可以通过联系 math\_evals@epochai.org 获取该基准测试的访问权限。这一基准测试的发布标志着 AI 评估领域的一个重要进展,同时也揭示了当前 AI 系统在复杂数学问题解决方面的局限性。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。