Gemini 刚发布的「主动音频」和「主动视频」是什么？对谈 Project Astra 主管

今天的 Google I/O 2025 大会上，实时多模态模型 Gemini Live API 升级了最新功能，除了更加细致的情感理解和双人语音合成，更吸引人注意的便是「主动音频」和「主动视频」功能。

主动音频和主动视频是什么？官方开发者 blog 给出了解释：

主动音频（Proactive Audio）：模型将忽略背景对话并知道何时回应。 demo 演示中，Gemini 会主动忽略人类对话里一些类似「ok」这样的「背景声音」，持续说话。

主动视频（Proactive Video），模型能够检测并记住关键事件。 实际测试中，Gemini 会记住所看到的画面，例如你可以询问模型你刚才都展示了多少件物品，而第二次展示的是什么。

而这些能力会打造出一个什么样的主动式智能体（Proactive Agent）？

前不久，Google DeepMind 的 YouTube 频道采访了 Google DeepMind 研究主管格雷格·韦恩 (Greg Wayne)。对话里他提到的 「主动视频交互」、「主动记忆」、「全双工对话」 等技术路线，在这次 Gemini API Live 的升级中都有体现。

我们精选了访谈的部分精彩内容，希望能给大家带来新的启发，enjoy～

Project Astra ：与 Greg Wayne 一起探索通用 AI 助理

Project Astra:Exploring a Universal AI Assistant with Greg Wayne

主持人： Hannah Fry
受访者： Greg Wayne，Google DeepMind 研究主管

注：为便于阅读，本文内容已作精简，并非完整对话。你可以访问原文收听完整版播客。

建立在 Gemini 基础上，但又超越 Gemini 的 AI 助理

Hannah Fry： 欢迎回到 Google DeepMind The Podcast 。今天我们要介绍的是 Project Astra，一个正在突破通用 AI 助理界限的研究原型。Greg，欢迎回来。

Greg Wayne： 你好，Hannah。

Hannah Fry： 我们从头开始吧。什么是 Project Astra？

Greg Wayne： Project Astra 是一个旨在构建一个 拥有眼睛、耳朵和声音， 能够与你共处的 AI 助手的项目。它能伴随你到任何地方， 通过智能眼镜、手机或电脑， 观察你正在做的事情，并与你进行交流。

Hannah Fry： 就像一个坐在你肩膀上的小助手？

Greg Wayne： 是的，就像一只栖息在你肩膀上的鹦鹉，与你一起观察世界，并和你谈论它。

Hannah Fry： 只是比你更聪明。

Greg Wayne： 在某些方面是的。

Hannah Fry： 这与 Google Assistant 或 Gemini 有所不同。

Greg Wayne： 是的。旧版本的 Google Assistant 更像是一个用于控制你家或信息的系统。而 Project Astra 则能与你一起谈论世界。它建立在 Gemini 的基础上，Gemini 是其背后的智能核心，它既与 Gemini 协同工作，又可能 帮助塑造 Gemini，同时也受到 Gemini 的塑造。

Hannah Fry： Project Astra 仍然是一个研究原型，为什么现在要 demo 它？

Greg Wayne： 让公众参与这个过程是好事。人们应该了解实验室里正在开发什么，并提供反馈。这是一个共同创造的过程，它不仅仅是在实验室里进行的，也是与世界各地的用户合作进行的。

Hannah Fry： 所以有人在现实世界中尝试使用它了吗？

Greg Wayne： 是的，我们有一些值得信赖的测试者，他们是一些早期的采用者。

Hannah Fry： 人们用它来做什么？

Greg Wayne： 比如获取时尚建议。Project Astra 就像一个伙伴，可以问它「什么和这个搭配？我怎样才能看起来更时尚？」

「Astra 可以在后台运行，并在它认为合适的时候提醒你」

Hannah Fry： 但硬件方面呢？目前，它在你的智能手机上。最终会出现在眼镜上吗？

Greg Wayne： 是的， 智能眼镜上的体验是最亲密的， 也最令人惊叹的，因为你感觉自己得到了增强。但软件堆栈实际上与设备无关，它可以运行在手机、电脑或 VR 头显上。

Hannah Fry： 对于视力受损或失明的人来说，它也有潜在的好处。

Greg Wayne： 是的，这是我痴迷的事情。这项技术可以在很大程度上复制一个在世界上帮助他们的同伴。例如，你可以想象帮助那些难以识别情绪和面部表情的人。也可以用来训练自己，你可以练习理解面部表情，并让 Astra 给你反馈。当然还有 记忆力 ，当摄像头开启时，它会记住过去 10 分钟的图像和谈论的内容。我们也很兴奋的一点是 主动性，它会自己判断你有什么需要，然后在你没有指示的情况下提供帮助。 比如，它可以提醒你一些事情，「别忘了，你回家路上需要买这个。」

Hannah Fry： 所以你不需要主动打开它和它对话，它可以在后台运行， 并在它认为合适的时候提醒你。

Greg Wayne： 是的。比如你快要回家的时候，它会说，「别忘了你需要买橙汁，因为你今天早上喝完了。」

Astra 依然面临「鸡尾酒会问题」挑战

Hannah Fry： 你会经常需要纠正它吗？你会注意到一些小故障吗？

Greg Wayne： 是的。有时候它会说它看不见一些它明明能看见的东西。你会用某种方式影响它，说「你能看见」，它就会说，「是的，我能看见。」

Hannah Fry： 所以它容易被鼓励？

Greg Wayne： 是的。

Hannah Fry： 在哪些环境它会表现得不太好？

Greg Wayne： 在嘈杂的条件下，它很难区分不同的声音。 它会将其误认为是用户的语音。嘈杂的环境会使它感到困惑。

Hannah Fry： 当你说区分不同的声音时，是指波形本身吗？

Greg Wayne： 是的。这有一个老问题，叫鸡尾酒会问题，技术上被称为源分离。指的是将一个声音源与另一个声音源区分开来。

Hannah Fry： 我猜，这在某种程度上使 Project Astra 如此困难，但也赋予了它潜力。

Greg Wayne： 是的，它应该能够在更多背景信息下解决歧义。

Hannah Fry： 不同的语言呢？目前它只支持英语吗？

Greg Wayne： 它实际上是多语种的，精通大约 20 种语言，你甚至可以在同一对话中切换语言。

Hannah Fry： 这太神奇了。

Greg Wayne： 我对这个系统在语言学习方面的应用感到非常兴奋。比如，四处走走，然后问，「那是什么？」，让它像我在学校里那样教你。

「主动记忆」灵感来自动物

Hannah Fry： 如果你正在和它互动，那么它的底层到底发生了什么？有哪些不同的组件？

Greg Wayne： 首先，有一个应用程序，收集视频和音频。它连接到一个服务器，服务器上有视觉编码器和音频编码器。还有专门的音频系统，负责了解你何时停止说话。这些都与大型语言模型 Gemini 相邻。它们将来自这些感觉编码器的信息直接发送到 Gemini，然后 Gemini 做出回应。 还有一个叫做「智能体」的东西，它会获取视频和音频，调用搜索工具， 比如 Google Lens、Google Search 或 Google Maps，还有一个记忆系统。

Hannah Fry： 我尝试想象， 我们只是用它来识别一本书，就有计算机视觉、语音识别、大型语言模型、Google Search 在底层支持、还有你做出决策的代理层。 所有这些的回答几乎没有延迟。这真是非常复杂的事情。

Greg Wayne： 是的，非常复杂。很少有人能理解输入模型的数据。而且，为什么它会产生这样的结果，可能没有人真正理解。

Hannah Fry： 让我们来谈谈它的历史。在播客的第一季，你是第一集的嘉宾，当时你从动物王国中汲取灵感来研究智能。特别是，你向我们介绍了西丛鸦，以此来激发 AI 更复杂的记忆能力。我放一段当时的录音。

播放 Greg Wayne 之前的录音：…… 拥有一个可以访问的庞大数据库，存储你做过和看过的事情，然后用它来指导你之后的有目标的行为——我饿了。我想现在吃一些虫子。我应该去哪里找？这是我们想要复制的东西……

Hannah Fry： 你们做到了吗？

Greg Wayne： （笑）你好，Project Astra。你能帮我找些虫子吗？

Hannah Fry： 这听起来很像你的橙汁例子，不是吗？

Greg Wayne： 这是一个主动记忆的例子。

视频是「原始通用人工智能」的连接纤维

Hannah Fry： 你的神经科学背景在多大程度上启发了 Project Astra？

Greg Wayne： 我们利用神经科学来了解我们何时做得足够好，可以思考 「记忆的真正含义是什么？」 . 另一方面，如果我们想要一些与人类兼容的东西，也许会朝着一种 更像我们，而不是直接的文本界面的智能形式发展。 例如，我对 Michael Tomasello 的工作很感兴趣，他认为，交流的基本前提是两个人在同一个地方，从而共同推断目标，然后进行协作。这正是我们在这项技术中建模的内容。

Hannah Fry： 这个项目的第一个火花来自哪里？它是什么时候开始的？

Greg Wayne： DeepMind 的 CEO Demis Hassabis 向公司提出了一个挑战，让我们思考什么是「原始通用人工智能」。我更倾向于智能的社会性。我认为我们可以将「原始通用人工智能」与一个有益的助手联系起来，其主要目标是为与之互动的人类带来好处。当我试图让它最终变得非常自然时，我逐渐开始认为 视频是系统最终的连接纤维（connecting tissue）。

Hannah Fry： 在这个过程中，有没有出现过大的突破？

Greg Wayne： 当时的一个主要发现是，我们意识到了「提示」的概念。 告诉系统它可以通过用户的摄像头看到世界，这给了它一种对事物的自我视角。 以前我们不太了解是否可以很好地提示多模态系统。

Hannah Fry： 这太有趣了。当提出要创建一个「原始通用人工智能」时，有人怀疑或不相信这种东西是可能实现的吗？

Greg Wayne： 是的。事后看来，AI 的发展很奇怪，因为它发展得太快了， 人们对理所当然的看法变化得太快了。 当时的人们对「系统是否真的能够理解世界」感到怀疑。我们甚至没有关于不同性能水平系统所需的数据量的基本知识。

Hannah Fry： 那么，有没有哪个时候你认为它不可能实现？

Greg Wayne： 没有。 我一直觉得它有可能实现。 有段时间我可能想放弃。我认为在 Gemini 出现之前有一段缓慢的时期，那段日子很艰难。但我从未动摇过它一定能实现的事实。

Hannah Fry： 我听说，在测试阶段，你们有一个 Project Astra 房间。那里发生了什么？

Greg Wayne： 我们在特别的房间里玩各种各样的游戏。那里有一个完整的酒吧，所以 Astra 可以帮你调酒。还有一个美术馆，你可以在屏幕上显示不同的画作，然后问一些关于艺术的问题。

Astra 系统的低延迟实现

Hannah Fry： 让我们更深入地了解 Astra 的幕后工作。延迟是一个非常关键的事情。你们是如何改进它的？

Greg Wayne： 我们改进了实际的视频流，通过应用程序更快地发送信息。我们总是处理图像，当视频进入视觉系统时，它总是尽可能快地运行。然后它与大型语言模型位于同一位置、同一组计算机中，因此它不必跨越国家或大陆进行调用。

Hannah Fry： 所以为了实现这种实时的理解，你必须将运行这些模型的计算机硬件物理地放置在一起？

Greg Wayne： 是的，绝对是这样。我们还有使用原生音频的想法。以前的系统都有文本识别系统。这个系统是直接接收音频的，因此它不需要二级系统。使用原生音频的一个简单效果是，它可以理解罕见的词或词的发音。最后一点是，团队在「端点检测」方面做了很多出色的工作， 它能准确地知道你何时停止说话。然后，它会在猜测，这是我将要说的话。当它发现用户真的已经说完话后，它会立即发送出去。

Hannah Fry： 预先猜测答案会是什么。

Greg Wayne： 是的。这很难。 我们的系统必须使用一些「语义理解」，因为它也对上下文和声音有一定的理解。

Hannah Fry： 你认为 Project Astra 是否能够推理？

Greg Wayne： 是的。它 主要是通过神经网络内部结构进行推理，以一种无法观察到的、非常复杂的方式。然后是它所产生的对话。它有时通过对话进行推理。

记忆机制与隐私保护

Hannah Fry： 现在，我想多和你谈谈记忆。它可以记住过去 10 分钟内发生的事情，对吗？

Greg Wayne： 是的， 大概是 10 分钟。 极限在于芯片上的内存。

Hannah Fry： 所以目前，它实际上就像一个录像机，记录了过去 10 分钟发生的一切。

Greg Wayne： 是的。还有一个二级系统，当你关闭系统时，它会提取对话，总结并提取相关的事实。

Hannah Fry： 它是如何决定哪些信息足够重要，值得记住？

Greg Wayne： 它有 启发式方法。 如果你要求它记住，它肯定会记住。否则，它会试图说，「用户是否表达了任何有趣的、或与用户已经表达过的偏好不同的偏好？」

Hannah Fry： 让我们来谈谈隐私问题。你们如何缓解这些隐私问题？

Greg Wayne： 主要标准之一是同意。 用户可以访问他们之前记录的数据，可以删除或查看存储的内容。

Hannah Fry： 用户的确最终会控制它了解自己的信息。

Greg Wayne： 是的。

Hannah Fry： DeepMind 的伦理学家 Iason Gabriel 的工作在多大程度上影响了你们的 Astra？

Greg Wayne： 我们和 Iason 谈了很多。我们也和他的团队一起做了很多工作。他们一直在调查模型和整个代理，探索它在不同情况下的表现。我们还有一层安全过滤器，防止用户受到伤害。

未来重点：主动视频交互和全双工对话

Hannah Fry： 那么，你们接下来的优先事项是什么？

Greg Wayne： 我对主动视频工作非常感兴趣。也就是说， 系统不仅能在你说话时做出回应，还能在持续的过程中帮助你。 例如，这属于为盲人提供视觉解释器的问题。当你四处走动时，因为你看不到，它会说，「小心那边的桌子」。它可以持续地引导你。我们还在音频输出方面做了很多工作，所谓的「全双工」。它可以同时处理听和说，这可能会有点烦人。 它可能会打断你。但它也更像自然的对话。 当你说话时，我可能会说，「嗯嗯」、「嗯嗯」，它在同时听和说。这是用来确认的语言的一部分。正如你所说，我们还会在推理、更深层次的记忆、反思等方面投入更多精力。当它调用工具进行更深入的查询和研究时，是的，还有太多事情需要做得更好。

Hannah Fry： 非常感谢你参与我们的节目，Greg。

Greg Wayne： 谢谢你，Hannah。

Hannah Fry： 我们对 AI 的期望变化之快真是奇怪。我们现在有了这个多模态代理的雏形。它能看、能听，能记忆、有上下文、能推理、能进行多语言实时对话。当然，它不是 AGI。但我们已经比两年前讨论的系统有了显著的飞跃。

原视频：https://www.youtube.com/watch?v=ctWfv4WUp2I
编译：施苏娜、傅丰元

更多 Voice Agent 学习笔记：