"从今天起,每个人的手机都可能成为贾维斯。这不是科幻电影,这是智谱 AI 带来的现实。"

夜深人静,我盯着手机屏幕,看着它仿佛被幽灵附身般自己动了起来 —— 打开美团,浏览菜品,挑选餐厅,完成支付。

整个过程行云流水,没有任何人为操作,只需要一句简单的语音指令。

这一刻,大全仿佛穿越到了钢铁侠的世界,与贾维斯对话的场景突然变得触手可及。

给 AI 装上手和脚

2024 年 11 月,智谱 AI 在 CNCC 大会上正式发布了 AutoGLM。这不是一次简单的模型升级,而是 AI 能力的质变 —— 它让 AI 首次获得了"身体",能够像人类一样操作手机界面,完成复杂的日常任务。

让人震撼的是,AutoGLM 颠覆了传统 AI 助手的运作方式:

  • 无需繁琐的 API 对接
  • 不用搭建复杂的工作流
  • 完全模拟人类的操作逻辑
  • 自主理解和执行多步骤任务

上图是 AGI 对标的人脑的进程图,通过这个 AGI 进程图,可以看到人类的很多能力 AI 已经具备了,特别是书写及语言的理解能力已经达 90%,而 AutoGLM,就是 AI 使用工具的能力。

真正解放双手的未来已经到来

想象一下这些曾经只存在于科幻电影中的场景:

  • "帮我订一张明天上午去深圳的高铁票,二等座就行"
  • "去我的微信,给老板最新的三条朋友圈点赞,写个幽默的评论"
  • "帮我在美团上找一家评分 4.5 以上的火锅店,人均200 元以内的,离我当前位置2 公里以内"

AutoGLM 会像一个训练有素的助理,自动完成所有繁琐的操作步骤。更令人惊叹的是,它还能根据上下文和历史记录,做出更智能的决策。

AutoGLM,只需接收简单的文字/语音指令,它就可以模拟人类操作手机,进而帮你:在微信上「给老板的朋友圈点赞并写评论」,在淘宝上「购买某一款历史订单产品」,以及在携程上预订酒店、在 12306 上购买火车票、在美团上点个外卖......

理论上,通过对 GUI 的深刻理解,AutoGLM 可以完成人类在可视化电子设备(电脑,手机,平板……)上能做的任何事。它不受限于简单的任务场景或 API 调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似,真正做到在日常生活、工作中辅助人类。

技术创新:突破性的双核心引擎

AutoGLM 能够实现如此惊人的效果,源自两大革命性的自研技术突破:

基础智能体解耦合中间界面

这项创新让 AI 具备了:

  • 精确识别和理解屏幕元素的能力
  • 超高精度的动作执行控制
  • 任务规划与执行的智能分离
  • 自适应的界面理解能力

自进化在线课程强化学习框架

这个框架实现了:

  • 动态调整任务难度的自适应学习
  • 持续提升的性能优化机制
  • 灵活的即时规划和纠错能力
  • 类人思维的决策链路构建

为什么说 AutoGLM 是 AI 发展的里程碑?

从进化论的角度看,工具使用能力是智慧生命的重要标志。

70 万年前,原始人类正是因为掌握了工具使用,才得以走出非洲,开启文明征程。

今天,AI 通过 AutoGLM 获得了"操作工具"的能力,这标志着人工智能向真正的通用智能迈出了关键性的一步。

在实际测试中,AutoGLM 展现出惊人的性能:

  • 在 Android 操作精度上超越 GPT-4 和 Claude-3.5
  • 在 WebArena-Lite 基准测试中性能提升200%
  • 任务完成率和操作准确度远超现有 AI 系统
  • 在复杂场景下展现出接近人类的理解能力

从"能说"到"能干"的跨越

比较传统的 AI 助手(如 Siri、小爱同学)和 AutoGLM,我们可以看到 AI 能力的代际跃迁:

传统 AI 助手的局限

  • 只能进行简单的语音对话
  • 依赖预设的指令和 API
  • 无法处理复杂任务链
  • 缺乏真正的理解能力

AutoGLM 的革命性突破

  • 可自主完成复杂的多步骤任务
  • 深度理解用户意图和场景上下文
  • 具备跨应用协作的能力
  • 展现出类人的操作逻辑

改变生活交互的方方面面

AutoGLM 的应用场景几乎涵盖了智能手机的所有使用场景:

  1. 日常生活

    • 网购:用户可以通过语音指令在淘宝等电商平台上完成购物操作。
    • 社交:AutoGLM 可以自动点赞、评论微信朋友圈,并处理其他社交媒体互动。
    • 地图导航:用户可以通过语音指令使用高德地图进行导航。
    • 订票:AutoGLM 支持在 12306 等平台上预订火车票和机票。
    • 订酒店:用户可以通过 AutoGLM 在携程等平台上预订酒店。
  2. 办公学习

    • 工作助手:AutoGLM 可以帮助用户处理邮件、会议记录等工作,提高工作效率。
    • 教育应用:AutoGLM 可以在教育场景中提供辅助,如整理笔记、生成学习攻略等。
  3. 生活便利

    • 点外卖:用户可以通过 AutoGLM 在美团等平台上点外卖。
    • 资料检索:AutoGLM 可以帮助用户快速获取所需信息,如通过网页访问和信息检索功能。
  4. 技术适配

    • AutoGLM 已适配微信、淘宝、美团、小红书等多款应用软件,覆盖了日常生活中常用的线上聊天、网购、社交、地图、酒店火车订票等功能。
  5. 高效执行与自我纠错

    • AutoGLM 具备高效执行任务的能力,并且在遇到问题时能够自我纠错并继续执行任务。

AutoGLM 现以通过安卓应用的方式,在真实的安卓手机支持多个应用上的自动化任务执行。在简单任务的人工评测中,AutoGLM 表现令人满意。

成长中的新生儿

不过,作为一项革命性技术,AutoGLM 目前还存在一些需要优化的地方:

当前局限

  • 支持的应用程序数量有限
  • 复杂场景下的处理能力待提升
  • 跨应用协作体验需要优化
  • 隐私安全机制需要进一步完善

如何申请内测呢?

先下载智谱清言 APP,安装后进入首页,能看到一个 AutoGLM 的图标,点击即可开始,详细操作如下:

AI 革命的转折点

马斯克说过:"未来不是我们要去的地方,而是我们创造的东西。

"AutoGLM 的诞生,意味着着 AI 从"能说会道"到"能干善成"的关键跃迁。大全认为这不仅仅一个产品的诞生,而是人机交互范式重构的开始。

就像1969 年人类登月是太空探索的里程碑,AutoGLM 的发布可能会被后人铭记为 AI 进化史上的关键节点。它让我们第一次看到了真正的"通用人工智能"。

"当我们回望这个时刻,也许会发现,这就是人工智能真正走向通用的起点,是科技改变人类生活的又一个转折点。"

这一次,科幻照进现实,未来触手可及。而这,才仅仅是开始。

结语

1950 年图灵提出"图灵测试",到今天的 AutoGLM,AI 的发展真的是历经了跌宕起伏,终于迎来质的飞跃。

大全已经开始期待了,不久之后,每个人都能拥有自己的"贾维斯",科技带来的便利将真正走进千家万户,改变我们的生活方式。

未来已来,这一次,我们都是见证者!!!

本文由mdnice多平台发布


大全Prompter
1 声望0 粉丝