Hugging Face 在24小时内克隆了OpenAI的深度研究

Hugging Face 发布开源 AI 研究代理 "Open Deep Research"

背景与动机

在 OpenAI 发布其自主浏览网页并生成研究报告的 "Deep Research" 功能 24 小时后,Hugging Face 的研究团队推出了开源 AI 研究代理 "Open Deep Research"。该项目旨在匹配 Deep Research 的性能,同时将技术免费提供给开发者。Hugging Face 指出,尽管强大的大语言模型(LLMs)已经开源,但 OpenAI 并未公开 Deep Research 的代理框架,因此他们决定在 24 小时内复现其结果并开源相关框架。

功能与架构

与 OpenAI 的 Deep Research 和 Google 使用 Gemini 实现的 "Deep Research" 类似,Hugging Face 的解决方案在现有 AI 模型基础上添加了一个 "代理" 框架,使其能够执行多步骤任务,如收集信息并生成最终报告。Open Deep Research 已经在通用 AI 助手(GAIA)基准测试中取得了 55.15% 的准确率,而 OpenAI 的 Deep Research 在单次响应中获得了 67.36% 的准确率(通过共识机制结合 64 次响应后提升至 72.57%)。

核心 AI 模型的选择

Open Deep Research 目前基于 OpenAI 的大语言模型(如 GPT-4o)或模拟推理模型(如 o1 和 o3-mini),但也可以适配开源权重模型。项目的创新之处在于其代理结构,该结构使得 AI 语言模型能够自主完成研究任务。Hugging Face 的 Aymeric Roucher 表示,尽管他们使用了闭源模型,但开发过程和代码都是公开的,并且可以切换到其他模型,支持完全开放的流程。

代理框架的优势

Hugging Face 使用了其开源的 "smolagents" 库,该库采用 "代码代理" 而非 JSON 代理,据称任务完成效率提高了 30%。这种方法使得系统能够更简洁地处理复杂的动作序列。基准测试显示,多步骤代理方法显著提升了大语言模型的能力,例如 OpenAI 的 GPT-4o 在 GAIA 基准测试中的平均得分为 29%,而 Deep Research 的得分为 67%。

开源 AI 的速度与未来改进

与其他开源 AI 应用一样,Open Deep Research 的开发者迅速迭代设计,并借助外部贡献者缩短了开发时间。尽管该开源研究代理尚未完全匹配 OpenAI 的性能,但其发布为开发者提供了免费研究和修改技术的机会。未来改进可能包括支持更多文件格式和基于视觉的网页浏览能力。Hugging Face 还在克隆 OpenAI 的 "Operator",该代理可以在网页浏览器环境中执行其他任务(如查看电脑屏幕和控制鼠标键盘输入)。

社区响应与贡献

Hugging Face 已将代码公开在 GitHub 上,并开放了工程师职位以扩展项目能力。Roucher 表示,社区响应非常积极,许多新贡献者提出了改进建议,感觉像是冲浪时抓住了浪潮,社区提供了强大的推动力。

阅读 12 (UV 12)
0 条评论