OpenAI 推出 BrowseComp 以基准测试 AI 代理的网络搜索和深度研究技能

发布于 2025-05-04

主要观点：OpenAI 发布 BrowseComp 基准，旨在测试 AI 代理在网络上查找难寻信息的能力，包含 1266 个具挑战性问题，需通过多网站导航获取纠缠信息，与现有基准不同，它挑战代理在大量网站中筛选答案，OpenAI 称其类似编程竞赛基准，虽未涵盖所有用户查询但衡量重要核心能力。人类在网络导航中有诸多不足，而机器智能理论上有优势但当前系统未达潜力，BrowseComp 数据集由人工创建，通过特定方法确保难度，OpenAI 评估多个模型，Deep Research 表现突出，此发布引发关于网络搜索和 AI 辅助研究未来的讨论。
关键信息：

OpenAI 发布 BrowseComp 基准及相关信息。
基准包含 1266 个挑战问题及创建方法。
与现有基准的区别及意义。
人类和机器在网络导航中的情况。
OpenAI 评估模型及 Deep Research 表现。
引发的讨论及相关人物观点。
重要细节：
BrowseComp 基准可通过 GitHub 仓库访问，完整研究论文可阅读。
人工创建数据集时对模型验证及问题设置的要求。
如 Michael Buckbee 对“Deep Research”的担忧，Nishant Sinha 对基准难度的强调等。

阅读 93