"从今天起,每个人的手机都可能成为贾维斯。这不是科幻电影,这是智谱 AI 带来的现实。"
夜深人静,我盯着手机屏幕,看着它仿佛被幽灵附身般自己动了起来 —— 打开美团,浏览菜品,挑选餐厅,完成支付。
整个过程行云流水,没有任何人为操作,只需要一句简单的语音指令。
这一刻,大全仿佛穿越到了钢铁侠的世界,与贾维斯对话的场景突然变得触手可及。
给 AI 装上手和脚
2024 年 11 月,智谱 AI 在 CNCC 大会上正式发布了 AutoGLM。这不是一次简单的模型升级,而是 AI 能力的质变 —— 它让 AI 首次获得了"身体",能够像人类一样操作手机界面,完成复杂的日常任务。
让人震撼的是,AutoGLM 颠覆了传统 AI 助手的运作方式:
- 无需繁琐的 API 对接
- 不用搭建复杂的工作流
- 完全模拟人类的操作逻辑
- 自主理解和执行多步骤任务
上图是 AGI 对标的人脑的进程图,通过这个 AGI 进程图,可以看到人类的很多能力 AI 已经具备了,特别是书写及语言的理解能力已经达 90%,而 AutoGLM,就是 AI 使用工具的能力。
真正解放双手的未来已经到来
想象一下这些曾经只存在于科幻电影中的场景:
- "帮我订一张明天上午去深圳的高铁票,二等座就行"
- "去我的微信,给老板最新的三条朋友圈点赞,写个幽默的评论"
- "帮我在美团上找一家评分 4.5 以上的火锅店,人均200 元以内的,离我当前位置2 公里以内"
AutoGLM 会像一个训练有素的助理,自动完成所有繁琐的操作步骤。更令人惊叹的是,它还能根据上下文和历史记录,做出更智能的决策。
AutoGLM,只需接收简单的文字/语音指令,它就可以模拟人类操作手机,进而帮你:在微信上「给老板的朋友圈点赞并写评论」,在淘宝上「购买某一款历史订单产品」,以及在携程上预订酒店、在 12306 上购买火车票、在美团上点个外卖......
理论上,通过对 GUI 的深刻理解,AutoGLM 可以完成人类在可视化电子设备(电脑,手机,平板……)上能做的任何事。它不受限于简单的任务场景或 API 调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似,真正做到在日常生活、工作中辅助人类。
技术创新:突破性的双核心引擎
AutoGLM 能够实现如此惊人的效果,源自两大革命性的自研技术突破:
基础智能体解耦合中间界面
这项创新让 AI 具备了:
- 精确识别和理解屏幕元素的能力
- 超高精度的动作执行控制
- 任务规划与执行的智能分离
- 自适应的界面理解能力
自进化在线课程强化学习框架
这个框架实现了:
- 动态调整任务难度的自适应学习
- 持续提升的性能优化机制
- 灵活的即时规划和纠错能力
- 类人思维的决策链路构建
为什么说 AutoGLM 是 AI 发展的里程碑?
从进化论的角度看,工具使用能力是智慧生命的重要标志。
70 万年前,原始人类正是因为掌握了工具使用,才得以走出非洲,开启文明征程。
今天,AI 通过 AutoGLM 获得了"操作工具"的能力,这标志着人工智能向真正的通用智能迈出了关键性的一步。
在实际测试中,AutoGLM 展现出惊人的性能:
- 在 Android 操作精度上超越 GPT-4 和 Claude-3.5
- 在 WebArena-Lite 基准测试中性能提升200%
- 任务完成率和操作准确度远超现有 AI 系统
- 在复杂场景下展现出接近人类的理解能力
从"能说"到"能干"的跨越
比较传统的 AI 助手(如 Siri、小爱同学)和 AutoGLM,我们可以看到 AI 能力的代际跃迁:
传统 AI 助手的局限
- 只能进行简单的语音对话
- 依赖预设的指令和 API
- 无法处理复杂任务链
- 缺乏真正的理解能力
AutoGLM 的革命性突破
- 可自主完成复杂的多步骤任务
- 深度理解用户意图和场景上下文
- 具备跨应用协作的能力
- 展现出类人的操作逻辑
改变生活交互的方方面面
AutoGLM 的应用场景几乎涵盖了智能手机的所有使用场景:
日常生活:
- 网购:用户可以通过语音指令在淘宝等电商平台上完成购物操作。
- 社交:AutoGLM 可以自动点赞、评论微信朋友圈,并处理其他社交媒体互动。
- 地图导航:用户可以通过语音指令使用高德地图进行导航。
- 订票:AutoGLM 支持在 12306 等平台上预订火车票和机票。
- 订酒店:用户可以通过 AutoGLM 在携程等平台上预订酒店。
办公学习:
- 工作助手:AutoGLM 可以帮助用户处理邮件、会议记录等工作,提高工作效率。
- 教育应用:AutoGLM 可以在教育场景中提供辅助,如整理笔记、生成学习攻略等。
生活便利:
- 点外卖:用户可以通过 AutoGLM 在美团等平台上点外卖。
- 资料检索:AutoGLM 可以帮助用户快速获取所需信息,如通过网页访问和信息检索功能。
技术适配:
- AutoGLM 已适配微信、淘宝、美团、小红书等多款应用软件,覆盖了日常生活中常用的线上聊天、网购、社交、地图、酒店火车订票等功能。
高效执行与自我纠错:
- AutoGLM 具备高效执行任务的能力,并且在遇到问题时能够自我纠错并继续执行任务。
AutoGLM 现以通过安卓应用的方式,在真实的安卓手机支持多个应用上的自动化任务执行。在简单任务的人工评测中,AutoGLM 表现令人满意。
成长中的新生儿
不过,作为一项革命性技术,AutoGLM 目前还存在一些需要优化的地方:
当前局限
- 支持的应用程序数量有限
- 复杂场景下的处理能力待提升
- 跨应用协作体验需要优化
- 隐私安全机制需要进一步完善
如何申请内测呢?
先下载智谱清言 APP,安装后进入首页,能看到一个 AutoGLM 的图标,点击即可开始,详细操作如下:
AI 革命的转折点
马斯克说过:"未来不是我们要去的地方,而是我们创造的东西。
"AutoGLM 的诞生,意味着着 AI 从"能说会道"到"能干善成"的关键跃迁。大全认为这不仅仅一个产品的诞生,而是人机交互范式重构的开始。
就像1969 年人类登月是太空探索的里程碑,AutoGLM 的发布可能会被后人铭记为 AI 进化史上的关键节点。它让我们第一次看到了真正的"通用人工智能"。
"当我们回望这个时刻,也许会发现,这就是人工智能真正走向通用的起点,是科技改变人类生活的又一个转折点。"
这一次,科幻照进现实,未来触手可及。而这,才仅仅是开始。
结语
从1950 年图灵提出"图灵测试",到今天的 AutoGLM,AI 的发展真的是历经了跌宕起伏,终于迎来质的飞跃。
大全已经开始期待了,不久之后,每个人都能拥有自己的"贾维斯",科技带来的便利将真正走进千家万户,改变我们的生活方式。
未来已来,这一次,我们都是见证者!!!
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。