OpenAI 发布 Operator：基于浏览器的 AI 代理

OpenAI 发布了 Operator 的研究预览版，这是一个能够使用浏览器代表用户执行任务的 AI 代理。Operator 在 WebArena 和 WebVoyager 基准测试中取得了最先进的性能。

核心技术与模型

Computer-Using Agent (CUA)：Operator 基于新开发的 CUA 模型，该模型源自 GPT-4o。CUA 利用 GPT-4o 的视觉能力来理解浏览器屏幕内容，并进一步训练以与 GUI 元素（如按钮和菜单）进行交互。
任务执行流程：Operator 通过感知、推理和行动的迭代循环来完成任务。
安全措施：内置了多项安全防护措施，例如在输入密码时需要用户接管，并拒绝某些高风险任务（如银行交易）。

OpenAI 表示，通过 o-model 系列 在深度推理、GPT-4o 的视觉能力以及通过强化学习和指令层次结构提高鲁棒性方面取得了显著进展。未来的挑战是扩展代理的动作空间，通过通用界面实现真正的“长尾”数字用例。

Anthropic 的 Computer Use 功能：Anthropic 的 Claude 模型可以通过解释屏幕图像、移动鼠标指针、点击按钮和虚拟键盘输入文本来与计算机交互。Claude 在多个操作系统和网络使用基准测试中创纪录，但 Operator 在 WebArena、WebVoyager 和 OSWorld 上表现更优。
与人类表现的差距：Operator 在这些任务上仍落后于人类表现，例如在 OSWorld 上得分为 38.1%，而人类得分超过 70%。

OpenAI 为 Operator 增加了多项安全措施，特别是针对恶意网站的攻击（如提示注入和钓鱼攻击）。OpenAI 使用红队测试了这些防护措施，并声称其提示注入防护在所有情况下均有效，仅有一例例外。

AI 研究员兼企业家 Andrej Karpathy 将 Operator 比作数字世界中的类人机器人，认为它将逐步实现混合自主世界，人类将成为低级自动化的高级监督者。他指出，由于数字世界的成本远低于物理世界，这一转变将在数字世界中更快发生。

Operator 目前仅通过网络提供给 ChatGPT Pro 用户。OpenAI 计划在确保其安全性和大规模可用性后，将其扩展到其他付费 ChatGPT 计划，并通过 API 提供底层的 CUA 模型。