AI像人一样操控电脑：多模态AI Agents和屏幕交互新范式

编者按： 未来我们与计算机的交互方式将发生怎样的变革？当 AI 能像人类一样自如地操控电脑和手机，我们的工作方式会有什么改变？
本文深入剖析了 Anthropic、微软和苹果三大科技巨头在突破这一瓶颈上的最新进展。通过解读他们各自独特的技术路线 —— 从 Anthropic 采用像素计数方式实现精准导航，到微软将界面解析为结构化数据，再到苹果专注于移动端的多模态交互方案，文章为我们展现了 AI 驱动屏幕交互的未来图景。

作者 | Tula Masterman

编译 | 岳扬

01 引言：AI Agent 领域的持续变革

Anthropic、微软和苹果的最新动态正在重塑我们对 AI Agents 的认知。目前，“AI Agent” 这一概念已被广泛提及 —— 几乎每一项与人工智能相关的公告都会涉及 AI Agents，但其先进程度和实用性却有着天壤之别。

在这个领域的一端，我们看到了一些能够进行多轮规划、工具操作和目标评估的先进 AI Agents。它们通过不断迭代来完成特定任务，甚至能够建立和利用“记忆（memories）”，从过往的错误中吸取教训，以推动未来的成功。如何打造一个高效的 AI Agents，是当前人工智能研究的热点之一。这涉及到探究成功 Agents 应该具备哪些特性（例如，AI Agents 的规划方式、记忆运用、工具选择以及任务跟踪能力）以及如何构建一个高效的 AI Agents 团队。

而在另一端，是一些执行的任务目的单一、几乎无需推理的 AI Agents。这些 AI Agents 往往更侧重于特定的工作流程（例如，专门负责生成文档摘要并保存结果的 Agent）。由于这些 Agents 的应用场景较为明确，因此它们通常更容易实现，不需要过多的规划和跨工具协调，也无需处理复杂的决策问题。

随着 Anthropic、微软和苹果的最新动态不断发布，我们目睹了基于文本的 AI Agents 向多模态转变。这一变化意味着我们可以通过书面或口头指令来指导 AI Agents，使其能够流畅地在手机或电脑上执行任务。这一技术有很大的潜力可以提升跨设备使用的便利性，然而，与此同时，这种技术也伴随着重大的风险。Anthropic 关于 computer use 技术的相关公告强调了 AI 不受限制访问用户屏幕的潜在风险，并提出了一系列降低风险措施，例如在专用的虚拟机或容器中运行 Claude，将互联网访问限制在允许的域名列表中，进行人工干预检查，并避免让模型接触敏感数据。他们还强调，通过 API 提交的内容不会被用于模型训练。

02 Anthropic、微软和苹果最新公告亮点

2.1 Anthropic推出Claude 3.5 Sonnet：赋予人工智能使用计算机的能力

概述：Computer Use 的目标是让 AI 能够像人类一样操作计算机。在理想状态下，Claude 能够实现文档的打开与编辑、点击页面的各个区域、内容的滚动阅读，以及命令行代码的运行和执行等多种操作。目前，Claude 已能按照人类指令在屏幕上移动光标、点击指定区域，并在虚拟键盘上输入文字。在 OSWorld 基准测试[1]中，Claude取得了 14.9% 的成绩，虽然超过了同基准测试中的其他 AI 模型，但与人类 70–75% 的平均得分相比，仍有不小的差距。
工作原理：Claude 通过查看用户上传的屏幕截图，并计算像素位置来确定光标移动的位置，从而完成指定任务。研究人员提到，为了安全起见，在训练过程中并未给予 Claude 互联网访问权限，但 Claude 能够将从使用计算器和文本编辑器等简单任务的训练中学习到的知识，应用到更为复杂的任务上。在任务执行失败时，它还会进行重试。Computer Use 功能包含了三个由 Anthropic 定义的工具：computer、text editor 和 bash。其中，computer 工具用于屏幕上的导航，text editor 用于文本文件的查看、创建和编辑，而 bash 则用于执行 bash shell 命令。
面临的挑战：尽管 Claude 的能力表现良好，但还有很长的路要走。目前，它在页面滚动、整体稳定性方面存在问题，且对提示词注入攻击较为敏感。
使用指南：公众可通过 Anthropic API 体验公共测试版。Computer Use 功能可以与常规工具结合使用。

2.2 微软的OmniParser & GPT-4V：让AI能够理解和操作屏幕

概述：OmniParser 用于解析用户界面截图，并将其转换成结构化的数据输出。这些输出可以被传递给 GPT-4V 这样的模型，以便根据检测到的屏幕元素生成相应的操作动作。在包括专为 Windows 系统设计的 Windows Agent Arena[2] 在内的多种基准测试中，OmniParser 与 GPT-4V 的组合得分约为20%。这些测试任务旨在评估 AI Agents 在规划、理解屏幕内容和使用工具方面的能力。
工作原理：OmniParser 通过整合多个经过微调的模型来解析屏幕内容。它采用了微调后的可交互图标/区域检测模型（YOLOv8[3]）、图标描述模型（BLIP-2[4] 或 Florence2[5]）以及 OCR 模块。这些模型被用于识别图标和文本，并在生成内容描述后，将输出数据发送给 GPT-4V，由 GPT-4V 决定如何利用这些信息与屏幕交互。
面临的挑战：目前，当 OmniParser 检测到重复的图标或文本并将其传递给 GPT-4V 时，GPT-4V 经常无法正确点击目标图标。此外，OmniParser 的准确性受 OCR 输出影响，如果边界框定位不准确，整个系统可能无法正确点击链接区域。还有，对于某些图标的理解也存在挑战，因为同一个图标有时会被用来表示不同的含义（例如，三个点可能代表加载中，也可能代表菜单选项）。
使用指南：OmniParser 可在 GitHub[6] 和 HuggingFace[7] 上获取。您需要安装必要的依赖项，并从 HuggingFace 加载模型。之后，您可以尝试运行 demo notebooks，了解 OmniParser 如何分析图像。

2.3 苹果的Ferret-UI：将多模态智能引入移动端

概述：苹果的 Ferret（任意时间、任意地点、任意粒度下引用和定位任何事物）技术早在 2023 年便已问世。近期，苹果推出了 Ferret-UI，这是一款 MLLM（多模态大语言模型），能够在移动设备端用户界面上执行“引用、定位和推理”任务。这些任务包括小部件的分类和图标的识别（引用任务），以及寻找特定图标或文本（定位任务）。Ferret-UI 能够理解用户界面并根据指令进行交互。
工作原理：Ferret-UI 在 Ferret 的基础上进行了优化，通过训练来适应不同分辨率的图像，从而更好地掌握移动端用户界面的细节。每张图像都被分割成两张子图像，并生成各自的特征。大语言模型（LLM）结合全图像、两张子图像、区域特征和文本嵌入信息来生成响应。
面临的挑战：Ferret-UI 的相关论文指出，模型在某些情况下会预测目标附近的文本，而不是目标文本，或者当屏幕上出现拼写错误的单词时，会预测出正确的单词，而不是屏幕上显示的错误单词，有时还会错误地识别用户界面的属性。
使用指南：苹果在 GitHub[8] 上公开了 Ferret-UI 的数据和代码，仅供研究目的使用。苹果发布了两个 Ferret-UI 模型版本，一个基于 Gemma-2b，另一个基于 Llama-3–8B。这些模型遵循 Gemma 和 Llama 的许可协议，而数据集则允许非商业用途。

2.4 总结：AI 驱动屏幕导航的三种策略

总的来说，这些系统分别展示了构建多模态 AI Agents 的不同路径，它们能够代表我们与电脑或手机进行交互。

Anthropic 推出的 Claude 3.5 Sonnet 着眼于一般的计算机交互，通过像素计数来实现屏幕上的精准导航。微软的 OmniParser 则专注于解决将用户界面拆分为结构化输出的难题，随后这些信息会被传递至 GPT-4V 等模型以决定下一步操作。而苹果的 Ferret-UI 则是针对移动端用户界面设计的，它能识别图标、文字和小部件，并能执行与用户界面相关的开放式指令。

这三种系统的工作流程一般包括两个主要阶段：一是解析视觉信息，二是思考如何与之交互。精确解析屏幕内容对于规划交互方式以及确保系统稳定执行任务至关重要。

03 结语：打造更智能、更安全的AI Agents

依我之见，这些进步最激动人心的地方在于多模态功能与推理框架正逐步融合。虽然这些工具展现出巨大的潜力，但与人类的表现相比仍有较大差距。此外，在部署能够访问屏幕的 AI Agents 系统时，还必须正视和解决一系列 AI 安全方面的问题。

智能体系统的一大优势在于它们能够通过将任务细分为多个部分，从而克服单个模型在认知方面的局限性。这些系统的构建方式多种多样。有时候，用户面前看似单一的智能体，实际上可能是由多个子智能体组成的团队 —— 每个子智能体拥有不同的职责，比如规划（planning）、屏幕交互（screen interaction）或记忆存储管理（memory management）。比如，负责推理的智能体可能会与专门处理屏幕数据的智能体协作，同时另一个智能体则负责整理记忆存储，以提高未来的表现。

另外，这些功能也可以集成在一个全能的智能体中。在这种情况下，智能体可能包含多个内部规划模块 —— 一个专注于屏幕操作的规划，另一个则负责整个任务的管理。尽管构建智能体的最佳方案尚待探索，但我们的目标始终不变：那就是创造出能够在不同模态下长期稳定工作，并能无间适应用户需求的智能体。

Thanks for reading!
Hope you have enjoyed and learned new things from this blog!

END

本期互动内容 🍻

❓如果让 AI 来操作你的设备，你最担心什么问题？安全、隐私还是其他？

🔗文中链接🔗

[1]https://os-world.github.io/

[2]https://microsoft.github.io/WindowsAgentArena/

[3]https://yolov8.com/

[4]https://arxiv.org/abs/2301.12597

[5]https://arxiv.org/abs/2311.06242

[6]https://github.com/microsoft/OmniParser/