ChatGPT 的新 AI 代理可以浏览网页并创建 PowerPoint 幻灯片演示文稿

发布于 7 月 18 日

主要观点：OpenAI 于周四推出ChatGPT Agent，可通过控制网页浏览器完成多步任务，融合了早期[Operator]和[Deep Research]的功能，标志着 OpenAI 进入“智能体 AI”领域，用户可让其处理多种任务，如组装购买服装、创建幻灯片等，系统利用多种方式完成任务，有“Watch Mode”且需用户许可某些操作，Agent 超越 Operator 后其预览网站将关闭。
关键信息：

可在 ChatGPT 界面内看到 AI 动作窗口，在虚拟环境中操作，不控制个人设备。
性能表现因情况而异，在一些基准测试中表现出色但仍有局限，如在复杂任务中可能失败，在某些数据科学任务上优于人类但幻灯片生成仍在 beta 阶段。
安全方面易受提示注入攻击，已采取防范措施，隐私方面在 OpenAI 服务器虚拟机运行，用户可删除浏览数据等。
重要细节：
系统使用网页浏览器、终端访问和 API 连接，有“ChatGPT Connectors”与 Gmail 和 GitHub 等应用集成。
性能测试中在不同基准测试上的得分情况，如在 Humanity's Last Exam、FrontierMath、DSBench 等测试中的表现。
安全措施包括训练模型识别和抵御攻击，要求用户确认某些操作，工程师称其为多个 AI 模型协同工作系统。
推出范围为 ChatGPT Pro 用户每月 400 条消息，Plus 和 Team 订阅用户几天后可使用，每月 40 条消息，Enterprise 和 Education 用户数周后可使用，欧洲经济区和瑞士暂不可用。

阅读 794