头图

今天的 Google I/O 2025 大会上,实时多模态模型 Gemini Live API 升级了最新功能,除了更加细致的情感理解和双人语音合成,更吸引人注意的便是「主动音频」和「主动视频」功能。

主动音频和主动视频是什么?官方开发者 blog 给出了解释:

主动音频(Proactive Audio):模型将忽略背景对话并知道何时回应。 demo 演示中,Gemini 会主动忽略人类对话里一些类似「ok」这样的「背景声音」,持续说话。

主动视频(Proactive Video),模型能够检测并记住关键事件。 实际测试中,Gemini 会记住所看到的画面,例如你可以询问模型你刚才都展示了多少件物品,而第二次展示的是什么。

而这些能力会打造出一个什么样的主动式智能体(Proactive Agent)?

前不久,Google DeepMind 的 YouTube 频道采访了 Google DeepMind 研究主管格雷格·韦恩 (Greg Wayne)。 对话里他提到的 「主动视频交互」、「主动记忆」、「全双工对话」 等技术路线,在这次 Gemini API Live 的升级中都有体现。

我们精选了访谈的部分精彩内容,希望能给大家带来新的启发,enjoy~

Project Astra :与 Greg Wayne 一起探索通用 AI 助理

Project Astra:Exploring a Universal AI Assistant with Greg Wayne

主持人: Hannah Fry
受访者: Greg Wayne,Google DeepMind 研究主管

注:为便于阅读,本文内容已作精简,并非完整对话。你可以访问原文收听完整版播客。

建立在 Gemini 基础上,但又超越 Gemini 的 AI 助理

Hannah Fry: 欢迎回到 Google DeepMind The Podcast 。今天我们要介绍的是 Project Astra,一个正在突破通用 AI 助理界限的研究原型。Greg,欢迎回来。

Greg Wayne: 你好,Hannah。

Hannah Fry: 我们从头开始吧。什么是 Project Astra?

Greg Wayne: Project Astra 是一个旨在构建一个 拥有眼睛、耳朵和声音, 能够与你共处的 AI 助手的项目。它能伴随你到任何地方, 通过智能眼镜、手机或电脑, 观察你正在做的事情,并与你进行交流。

Hannah Fry: 就像一个坐在你肩膀上的小助手?

Greg Wayne: 是的,就像一只栖息在你肩膀上的鹦鹉,与你一起观察世界,并和你谈论它。

Hannah Fry: 只是比你更聪明。

Greg Wayne: 在某些方面是的。

Hannah Fry: 这与 Google Assistant 或 Gemini 有所不同。

Greg Wayne: 是的。旧版本的 Google Assistant 更像是一个用于控制你家或信息的系统。而 Project Astra 则能与你一起谈论世界。它建立在 Gemini 的基础上,Gemini 是其背后的智能核心,它既与 Gemini 协同工作,又可能 帮助塑造 Gemini,同时也受到 Gemini 的塑造。

Hannah Fry: Project Astra 仍然是一个研究原型,为什么现在要 demo 它?

Greg Wayne: 让公众参与这个过程是好事。人们应该了解实验室里正在开发什么,并提供反馈。这是一个共同创造的过程,它不仅仅是在实验室里进行的,也是与世界各地的用户合作进行的。

Hannah Fry: 所以有人在现实世界中尝试使用它了吗?

Greg Wayne: 是的,我们有一些值得信赖的测试者,他们是一些早期的采用者。

Hannah Fry: 人们用它来做什么?

Greg Wayne: 比如获取时尚建议。Project Astra 就像一个伙伴,可以问它「什么和这个搭配?我怎样才能看起来更时尚?」

「Astra 可以在后台运行,并在它认为合适的时候提醒你」

Hannah Fry: 但硬件方面呢?目前,它在你的智能手机上。最终会出现在眼镜上吗?

Greg Wayne: 是的, 智能眼镜上的体验是最亲密的, 也最令人惊叹的,因为你感觉自己得到了增强。但软件堆栈实际上与设备无关,它可以运行在手机、电脑或 VR 头显上。

Hannah Fry: 对于视力受损或失明的人来说,它也有潜在的好处。

Greg Wayne: 是的,这是我痴迷的事情。这项技术可以在很大程度上复制一个在世界上帮助他们的同伴。例如,你可以想象帮助那些难以识别情绪和面部表情的人。也可以用来训练自己,你可以练习理解面部表情,并让 Astra 给你反馈。当然还有 记忆力 ,当摄像头开启时,它会记住过去 10 分钟的图像和谈论的内容。我们也很兴奋的一点是 主动性,它会自己判断你有什么需要,然后在你没有指示的情况下提供帮助。 比如,它可以提醒你一些事情,「别忘了,你回家路上需要买这个。」

Hannah Fry: 所以你不需要主动打开它和它对话,它可以在后台运行, 并在它认为合适的时候提醒你。

Greg Wayne: 是的。比如你快要回家的时候,它会说,「别忘了你需要买橙汁,因为你今天早上喝完了。」

Astra 依然面临「鸡尾酒会问题」挑战

Hannah Fry: 你会经常需要纠正它吗?你会注意到一些小故障吗?

Greg Wayne: 是的。有时候它会说它看不见一些它明明能看见的东西。你会用某种方式影响它,说「你能看见」,它就会说,「是的,我能看见。」

Hannah Fry: 所以它容易被鼓励?

Greg Wayne: 是的。

Hannah Fry: 在哪些环境它会表现得不太好?

Greg Wayne: 在嘈杂的条件下,它很难区分不同的声音。 它会将其误认为是用户的语音。嘈杂的环境会使它感到困惑。

Hannah Fry: 当你说区分不同的声音时,是指波形本身吗?

Greg Wayne: 是的。这有一个老问题,叫鸡尾酒会问题,技术上被称为源分离。指的是将一个声音源与另一个声音源区分开来。

Hannah Fry: 我猜,这在某种程度上使 Project Astra 如此困难,但也赋予了它潜力。

Greg Wayne: 是的,它应该能够在更多背景信息下解决歧义。

Hannah Fry: 不同的语言呢?目前它只支持英语吗?

Greg Wayne: 它实际上是多语种的,精通大约 20 种语言,你甚至可以在同一对话中切换语言。

Hannah Fry: 这太神奇了。

Greg Wayne: 我对这个系统在语言学习方面的应用感到非常兴奋。比如,四处走走,然后问,「那是什么?」,让它像我在学校里那样教你。

「主动记忆」灵感来自动物

Hannah Fry: 如果你正在和它互动,那么它的底层到底发生了什么?有哪些不同的组件?

Greg Wayne: 首先,有一个应用程序,收集视频和音频。它连接到一个服务器,服务器上有视觉编码器和音频编码器。还有专门的音频系统,负责了解你何时停止说话。这些都与大型语言模型 Gemini 相邻。它们将来自这些感觉编码器的信息直接发送到 Gemini,然后 Gemini 做出回应。 还有一个叫做「智能体」的东西,它会获取视频和音频,调用搜索工具, 比如 Google Lens、Google Search 或 Google Maps,还有一个记忆系统。

Hannah Fry: 我尝试想象, 我们只是用它来识别一本书,就有计算机视觉、语音识别、大型语言模型、Google Search 在底层支持、还有你做出决策的代理层。 所有这些的回答几乎没有延迟。这真是非常复杂的事情。

Greg Wayne: 是的,非常复杂。很少有人能理解输入模型的数据。而且,为什么它会产生这样的结果,可能没有人真正理解。

Hannah Fry: 让我们来谈谈它的历史。在播客的第一季,你是第一集的嘉宾,当时你从动物王国中汲取灵感来研究智能。特别是,你向我们介绍了西丛鸦,以此来激发 AI 更复杂的记忆能力。我放一段当时的录音。

播放 Greg Wayne 之前的录音 :…… 拥有一个可以访问的庞大数据库,存储你做过和看过的事情,然后用它来指导你之后的有目标的行为——我饿了。我想现在吃一些虫子。我应该去哪里找?这是我们想要复制的东西……

Hannah Fry: 你们做到了吗?

Greg Wayne: (笑)你好,Project Astra。你能帮我找些虫子吗?

Hannah Fry: 这听起来很像你的橙汁例子,不是吗?

Greg Wayne: 这是一个主动记忆的例子。

视频是「原始通用人工智能」的连接纤维

Hannah Fry: 你的神经科学背景在多大程度上启发了 Project Astra?

Greg Wayne: 我们利用神经科学来了解我们何时做得足够好,可以思考 「记忆的真正含义是什么?」 . 另一方面,如果我们想要一些与人类兼容的东西,也许会朝着一种 更像我们,而不是直接的文本界面的智能形式发展。 例如,我对 Michael Tomasello 的工作很感兴趣,他认为,交流的基本前提是两个人在同一个地方,从而共同推断目标,然后进行协作。这正是我们在这项技术中建模的内容。

Hannah Fry: 这个项目的第一个火花来自哪里?它是什么时候开始的?

Greg Wayne: DeepMind 的 CEO Demis Hassabis 向公司提出了一个挑战,让我们思考什么是「原始通用人工智能」。我更倾向于智能的社会性。我认为我们可以将「原始通用人工智能」与一个有益的助手联系起来,其主要目标是为与之互动的人类带来好处。当我试图让它最终变得非常自然时,我逐渐开始认为 视频是系统最终的连接纤维(connecting tissue)。

Hannah Fry: 在这个过程中,有没有出现过大的突破?

Greg Wayne: 当时的一个主要发现是,我们意识到了「提示」的概念。 告诉系统它可以通过用户的摄像头看到世界,这给了它一种对事物的自我视角。 以前我们不太了解是否可以很好地提示多模态系统。

Hannah Fry: 这太有趣了。当提出要创建一个「原始通用人工智能」时,有人怀疑或不相信这种东西是可能实现的吗?

Greg Wayne: 是的。事后看来,AI 的发展很奇怪,因为它发展得太快了, 人们对理所当然的看法变化得太快了。 当时的人们对「系统是否真的能够理解世界」感到怀疑。我们甚至没有关于不同性能水平系统所需的数据量的基本知识。

Hannah Fry: 那么,有没有哪个时候你认为它不可能实现?

Greg Wayne: 没有。 我一直觉得它有可能实现。 有段时间我可能想放弃。我认为在 Gemini 出现之前有一段缓慢的时期,那段日子很艰难。但我从未动摇过它一定能实现的事实。

Hannah Fry: 我听说,在测试阶段,你们有一个 Project Astra 房间。那里发生了什么?

Greg Wayne: 我们在特别的房间里玩各种各样的游戏。那里有一个完整的酒吧,所以 Astra 可以帮你调酒。还有一个美术馆,你可以在屏幕上显示不同的画作,然后问一些关于艺术的问题。

Astra 系统的低延迟实现

Hannah Fry: 让我们更深入地了解 Astra 的幕后工作。延迟是一个非常关键的事情。你们是如何改进它的?

Greg Wayne: 我们改进了实际的视频流,通过应用程序更快地发送信息。我们总是处理图像,当视频进入视觉系统时,它总是尽可能快地运行。然后它与大型语言模型位于同一位置、同一组计算机中,因此它不必跨越国家或大陆进行调用。

Hannah Fry: 所以为了实现这种实时的理解,你必须将运行这些模型的计算机硬件物理地放置在一起?

Greg Wayne: 是的,绝对是这样。我们还有使用原生音频的想法。以前的系统都有文本识别系统。这个系统是直接接收音频的,因此它不需要二级系统。使用原生音频的一个简单效果是,它可以理解罕见的词或词的发音。最后一点是,团队在「端点检测」方面做了很多出色的工作, 它能准确地知道你何时停止说话。然后,它会在猜测,这是我将要说的话。当它发现用户真的已经说完话后,它会立即发送出去。

Hannah Fry: 预先猜测答案会是什么。

Greg Wayne: 是的。这很难。 我们的系统必须使用一些「语义理解」,因为它也对上下文和声音有一定的理解。

Hannah Fry: 你认为 Project Astra 是否能够推理?

Greg Wayne: 是的。它 主要是通过神经网络内部结构进行推理,以一种无法观察到的、非常复杂的方式。然后是它所产生的对话。它有时通过对话进行推理。

记忆机制与隐私保护

Hannah Fry: 现在,我想多和你谈谈记忆。它可以记住过去 10 分钟内发生的事情,对吗?

Greg Wayne: 是的, 大概是 10 分钟。 极限在于芯片上的内存。

Hannah Fry: 所以目前,它实际上就像一个录像机,记录了过去 10 分钟发生的一切。

Greg Wayne: 是的。还有一个二级系统,当你关闭系统时,它会提取对话,总结并提取相关的事实。

Hannah Fry: 它是如何决定哪些信息足够重要,值得记住?

Greg Wayne: 它有 启发式方法。 如果你要求它记住,它肯定会记住。否则,它会试图说,「用户是否表达了任何有趣的、或与用户已经表达过的偏好不同的偏好?」

Hannah Fry: 让我们来谈谈隐私问题。你们如何缓解这些隐私问题?

Greg Wayne: 主要标准之一是同意。 用户可以访问他们之前记录的数据,可以删除或查看存储的内容。

Hannah Fry: 用户的确最终会控制它了解自己的信息。

Greg Wayne: 是的。

Hannah Fry: DeepMind 的伦理学家 Iason Gabriel 的工作在多大程度上影响了你们的 Astra?

Greg Wayne: 我们和 Iason 谈了很多。我们也和他的团队一起做了很多工作。他们一直在调查模型和整个代理,探索它在不同情况下的表现。我们还有一层安全过滤器,防止用户受到伤害。

未来重点:主动视频交互和全双工对话

Hannah Fry: 那么,你们接下来的优先事项是什么?

Greg Wayne: 我对主动视频工作非常感兴趣。也就是说, 系统不仅能在你说话时做出回应,还能在持续的过程中帮助你。 例如,这属于为盲人提供视觉解释器的问题。当你四处走动时,因为你看不到,它会说,「小心那边的桌子」。它可以持续地引导你。我们还在音频输出方面做了很多工作,所谓的「全双工」。它可以同时处理听和说,这可能会有点烦人。 它可能会打断你。但它也更像自然的对话。 当你说话时,我可能会说,「嗯嗯」、「嗯嗯」,它在同时听和说。这是用来确认的语言的一部分。正如你所说,我们还会在推理、更深层次的记忆、反思等方面投入更多精力。当它调用工具进行更深入的查询和研究时,是的,还有太多事情需要做得更好。

Hannah Fry: 非常感谢你参与我们的节目,Greg。

Greg Wayne: 谢谢你,Hannah。

Hannah Fry: 我们对 AI 的期望变化之快真是奇怪。我们现在有了这个多模态代理的雏形。它能看、能听,能记忆、有上下文、能推理、能进行多语言实时对话。当然,它不是 AGI。但我们已经比两年前讨论的系统有了显著的飞跃。

原视频:https://www.youtube.com/watch?v=ctWfv4WUp2I
编译:施苏娜、傅丰元


更多 Voice Agent 学习笔记:

级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)


RTE开发者社区
663 声望976 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。