能跨App比价的手机AI助手，UIUC阿里开源可自我进化多能体框架，超越SOTA性能33.9%

关注前沿科技量子位

手机助手执行复杂推理、多步规划以及跨App操作，同时配备自我进化模块，可以反思过往的任务记录，从经验中学习——

UIUC和阿里通义实验室联合推出新型手机智能体框架Mobile-Agent-E。

在智能手机时代，每天超过5小时的屏幕使用时间已成为常态。除了娱乐，人们还需要处理大量繁琐且耗时的任务，这时人们常常希望能有一个聪明的手机助手代劳。

例如，在不同购物 App 之间寻找最划算的商品，或者规划一个包含游玩和美食的旅行计划。然而，现有的移动智能助手通常只能处理简单直观的指令（例如“帮我导航到西湖”）。

Mobile-Agent-E有着层次化的多智能体架构，将抽象的子任务规划与具体的行动决策区分开来，获得了更强的长期规划和错误修复能力。

实机演示视频

视频经过加速处理‍

Mobile-Agent-E

多层级多智能体架构（Hierachical Multi-Agent Framework）

为了解决现实场景中多步骤、多 App 的复杂问题，Mobile-Agent-E 构建了一个多层级、多智能体协同框架。

核心想法是显式地将高层规划（high-level planning），和低层动作执行（low-level action）区别开来。这种多层级的架构有效提升了模型长远规划（long-horizon planning）和错误恢复（error recovery）的能力。

下图展示了一个真实案例：Mobile-Agent-E 在三个不同的购物平台（Amazon、Walmart、Best Buy）之间搜索用户想要购买的 Nintendo Switch 手柄，记录对比，并最终找到最便宜的选项。

具体来说，Mobile-Agent-E 由一个“上级”经理和四个“下级”助手组成。

管理者（Manager）：一个基于大型多模态模型（LMM）的推理代理，用于为用户的请求创建包含分解子目标的高层计划。管理者还会参考长期记忆中的可用捷径（Shortcuts）来指导规划。此外，当模型观察到连续的动作失败时，会触发错误上报（Error Escalation），通知管理者检查最近的错误并决定高层次的调整以解决问题。在其他情况下，当错误首次发生时，操作员（Operator）会先尝试解决问题，只有在无法解决时才将问题升级给管理者。

感知者（Perceptor）：一个基于纯视觉的感知模块用于检测当前截图中细粒度的文本和图标信息。Perceptor包含三个子模块：OCR模型、图标识别（icon recognition）模型和图标描述（icon captioning）生成模型。

操作员（Operator）：一个基于LMM的推理代理，用于根据管理者提供的高层计划决定下一步即时动作（例如点击 Tap(x, y)）。操作员还会参考长期记忆中的提示（Tips）来指导决策。动作空间不仅包含原子操作（Atomic Operations），还包括捷径（Shortcuts）。关于Tips和Shortcuts会在后文详细阐述。

动作反思者（Action Reflector）：是基于LMM的推理代理，用于通过比较动作前后的截图验证前一个动作是否达到预期结果。如果动作成功，动作反思者会记录当前的任务进展；如果动作失败，则提供额外的错误反馈。

记录员（Notetaker）：是基于LMM的推理代理，用于在任务导航过程中记录并汇总重要信息。例如，商品价格或餐馆的电话号码。

下图展现了具体任务执行过程中，各个智能体的输入和输出：

自我进化模块（Self-Evolution Module）

Mobile-Agent-E 首次在移动手机场景中引入“自我进化模块”，赋予其类似人类使用手机时逐步变得更熟练的能力。具体来说，作者从认知科学中汲取灵感，定义了两种用于进化的知识类型：Tips 和 Shortcuts。

提示（Tips）：提示被定义为关于有效交互的一般指导和从以往错误中总结的经验教训，类似于人类认知中的情景记忆（episodic memory）。

捷径（Shortcuts）：捷径被定义为由一系列原子操作组成的可复用、可执行的技能，专为重复出现的子任务设计。捷径类似于程序性知识（procedural knowledge），使人类能够高效且常常下意识地完成熟练任务。作者在捷径的定义中还特别指出使用特定Shortcut需要的前置条件（precondition），并要求Operator在使用捷径之前验证当前状态是否满足前置条件。这是由于在手机场景中，特定Shortcut，例如Shortcut “Tap\_Type\_and\_Enter”(“点击输入栏->输入文本->回车”) 只能在特定状态下执行（“当前页面有可供输入的区域”）。

Tips和Shortcuts被存储在一个长期记忆模块中，并随着不同任务的完成不断更新。每完成一个任务后，两个经验反思者（Experience Reflectors）会根据当前任务的操作记录和错误日志等信息，对Tips和Shortcuts 进行可能的优化和更新。例如，下图展示了更新的具体过程：

全新基准测试与实验结果

更具挑战的基准测试级：Mobile-Eval-E Benchmark

为验证智能体在复杂真实任务中的能力，研究团队设计了全新基准测试数据集 Mobile-Eval-E，专注于复杂、多步骤、多应用交互任务。与现有测试集相比，Mobile-Eval-E 的难度显著提升，具体体现在：1. 平均每个任务所需的操作步骤超过两倍。2. 超过 76% 的任务涉及多 App 交互。

针对真实复杂任务的评价指标：Satisfaction Score

作者引入了一种新的评估指标，称为满意度得分（Satisfaction Score, SS），以应对现实任务中常常缺乏二元成功标志或标准轨迹的问题。该指标基于人类编写的评分标准（Rubrics）计算，评分标准既考虑了关键步骤的完成情况（例如“打开地图”），也包括探索性行为（例如“查看了多个评论”）。Satisfaction Score提供了一种与人类偏好一致的可靠代理性能评估方式。

作者进一步提出了满意度得分与步骤曲线（Satisfaction Score vs Steps, SSS），以更好地评估和可视化移动代理的效率。此外，作者还考虑了以下指标：动作准确率（Action Accuracy, AA），反思准确率（Reflection Accuracy, RA），用于评估动作层面的性能；以及终止错误率（Termination Error, TE），用于反映模型的鲁棒性和错误修复能力。