Agent Q 发布
最近围绕 OpenAI 的"草莓"项目的宣传,让许多人都在为“草莓”AI 的诞生而翘首以盼。但令人没想到的是这次的“草莓”项目却是一场AI “闹剧”!这一切的炒作都是为了 Agent Q 的发布。
一场AI界的闹剧
“草莓哥”账号以及发文
你打开社交媒体,满屏都是关于 OpenAI 即将发布重大突破的消息。一个名为"草莓哥"的账号成为了焦点,它不知疲倦地发布着各种"内幕"。这个账号的头像是电影《Her》的男主角,昵称是三颗草莓,仿佛在暗示着什么。Sam Altman 和"草莓哥"之间的互动更是火上浇油,让人们坚信 OpenAI 即将揭晓惊天秘密。
然而,当期待达到顶点时,OpenAI 只是发布了一个新的代码能力测试基准。失望之余,一个更大的惊喜在等着我们。就在网友们的耐心被耗光的时候,剧情突然反转。创业公司 MultiOn AI 的创始人 Div Garg 站了出来,声称"草莓哥"账号其实是他们公司最先进的 AI Agent 在操控。这一爆料如同平地惊雷,让整个AI圈都炸开了锅。
Agent Q
Multion 官方发文
Agent Q 是结合了搜索、自我批评和强化学习,以创建可以计划和自我修复的最先进的自主 Web 代理。我们的突破性方法通过引入一种新的学习和推理框架,为自主网络导航提供了新的学习和推理框架,从而解决了以前LLM训练技术的局限性。
Agent Q 通过将引导蒙特卡洛树搜索 (MCTS) 和 AI 自我批评与迭代微调相结合,利用强化学习进行人类反馈 (RLFH) 方法,如直接偏好优化 (DPO) 算法,从而进行创新。这种方法使LLM智能体能够从成功和不成功的轨迹中学习,从而增强了他们在多步推理任务中的泛化能力。以下是Agent Q 的关键组件:
1.使用 MCTS 进行引导搜索:这种技术通过探索不同的操作和网页来自主生成数据,平衡探索和利用。MCTS利用高采样温度和多样化的提示扩大了动作空间,确保了多样化和最优的轨迹收集。
2.人工智能自我批评:在每一步,基于人工智能的自我批评都会提供有价值的反馈,从而完善代理人的决策过程。这种阶梯级反馈对于长期任务至关重要,因为在长期任务中,稀疏的信号往往会导致学习困难。
3.直接偏好优化:DPO 算法通过从 MCTS 生成的数据构建偏好对来微调模型。这种偏离策略的训练方法使模型能够有效地从聚合数据集中学习,包括在搜索过程中探索的次优分支,从而提高复杂环境中的成功率。
实测效果
Agent Q 实测
在官方演示中,Agent Q 能够轻松完成预订餐厅、会议和机票等任务。这些看似简单的操作,实际上涉及多个步骤的规划、推理和决策,以及与各种应用程序的复杂交互。Agent Q 还展现出了快速适应真实世界挑战的学习能力。它不仅能完成预设的任务,还能根据用户的反馈不断优化自己的决策过程。这意味着它可以像人类一样,从经验中学习,变得越来越聪明。
在与Llama 3基线模型的对比中,Agent Q将零样本成功率从18.6%提升至81.7%,性能提升了惊人的340%。并且这一提升仅仅用了一天的自主数据收集就实现的效果。在真实场景的任务中,Agent Q的表现更是出色。在OpenTable的预订任务中,它的成功率高达95.4%。这个任务的复杂度远超简单的网上购物,需要执行多个步骤,包括找到特定餐厅、选择合适的日期和时间、根据用户偏好选择座位,最后还要提交用户的联系方式。
MultiOn 发表论文
目前 Agent Q 的研究团队 MultiOn 已经在官网上传了论文,但Agent Q 还是没有对外开放的状态,实际的实用估计需要等官方开启使用或测试资格,不知道你们觉得 Agent Q 究竟如何呢?
有关厚德云
厚德云致力于为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用,就在厚德云。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。