OpenAI推出Operator，一个能在网络上执行任务的AI代理

OpenAI 发布 Operator：基于 CUA 模型的网页自动化工具

OpenAI 于周四发布了名为 Operator 的网页自动化工具研究预览版。该工具使用了一种名为 Computer-Using Agent (CUA) 的新 AI 模型，通过视觉界面控制网页浏览器。Operator 能够像人类一样查看屏幕上的元素（如按钮和文本字段）并与之交互，从而执行任务。

发布与可用性

发布平台：Operator 目前仅面向每月 200 美元的 ChatGPT Pro 计划订阅者开放，用户可通过 operator.chatgpt.com 访问。
未来扩展：OpenAI 计划逐步向 Plus、Team 和 Enterprise 用户开放该工具，并最终将 CUA 的功能直接集成到 ChatGPT 中，后续还会通过 API 向开发者发布。

工作原理

Operator 在虚拟环境中监控屏幕内容，使用内置浏览器并通过模拟键盘和鼠标输入执行任务。CUA 模型通过处理浏览器界面的截图来理解浏览器状态，并根据观察结果决定点击、输入和滚动等操作。

行业背景

OpenAI 的发布是科技公司进军“代理型”AI 系统（能够代表用户执行操作）的一部分。Google 于 2024 年 12 月宣布了 Project Mariner，通过 Chrome 浏览器执行自动化任务；Anthropic 则在 2024 年 10 月发布了面向开发者的网页自动化工具 Computer Use，能够控制用户鼠标光标并在计算机上执行操作。

用户体验与功能

操作流程：CUA 通过多步骤流程工作：捕获截图、分析图像（使用 GPT-4o 的视觉能力）、确定操作并执行虚拟输入。这种迭代循环设计使系统能够从错误中恢复并处理跨应用程序的复杂任务。
任务表现：Operator 在重复性网页任务（如创建购物清单或播放列表）中表现最佳，但在处理不熟悉的界面（如表格和日历）时表现较差，复杂文本编辑的成功率仅为 40%。
基准测试：在 WebVoyager 基准测试中，Operator 的成功率为 87%；在 WebArena 中降至 58.1%；在 OSWorld 中，CUA 的成功率为 38.1%，虽超过之前模型但仍远低于人类的 72.4%。

安全与隐私控制

安全措施：Operator 的所有浏览和操作均在虚拟环境中进行。OpenAI 内置了多项安全控制，要求用户在执行发送邮件或购物等敏感操作前进行确认，并限制访问某些网站类别（如赌博和成人内容）。
实时监控：为防止通过 提示注入 等手段攻击 Operator，OpenAI 实施了实时监控和检测系统，在早期内部红队测试中仅漏过一例攻击尝试。
隐私保护：用户可通过 ChatGPT 设置选择不将数据用于模型训练，在 Operator 设置中一键删除所有浏览数据，并同时注销所有网站。在输入敏感信息（如密码或支付详情）时，Operator 会进入“接管模式”并停止收集截图。

专家观点

AI 研究员 Simon Willison 对 Operator 的安全性持怀疑态度，认为随着新威胁的出现，可能会出现各种针对该模型的提示注入攻击。OpenAI 在其系统文档中也承认，尽管进行了主动测试和缓解措施，但由于现实场景的复杂性和对抗性威胁的动态性，某些风险和挑战仍然存在。

用户建议

Willison 建议用户为每个任务启动新会话，以确保 Operator 无法访问之前使用过的网站凭据。如果让 Operator 代为支付，建议在到达结账页面时手动输入支付信息，并在完成后立即清除会话。

*本文更新于 2025 年 1 月 25 日，以澄清 Operator 在其虚拟浏览器环境中运行。