北京时间 5 月 15 日凌晨 1:00,Google I/O 2024 正式拉开帷幕。本次大会长达 110 分钟的主题演讲中,“AI”被提及 121 次,足见 AI 之于 Google 的重要性。
围绕 AI,Google 一口气发布了多个新模型、新工具、新功能及新基建,重点分享了 Gemini 的最新进展,及其与Google核心业务的融合应用。
所有创新都指向一个方向,Google 已全面进入 Gemini 时代。
最新进展:Gemini 上新,多模态与长上下文取得突破
对 Gemini 而言,多模态从根本上扩展了可以提出的问题以及将得到的答案,而长文本能力则使其更进一步。
Google CEO Sundar Pichai 在现场宣布推出 Gemini 1.5 Pro进阶版,可提供 100 万 Tokens,并且向全球开发者开放。此外,Gemini 1.5 Pro 也可供 Gemini Advanced 的消费者直接使用,支持 35 种语言。
随后,首次登上 I/O 舞台的 Google DeepMind 联合创始人兼CEO Demis Hassabis 宣布将推出 Gemini 1.5 Flash,为开发者而生,旨在兼顾快速和成本效益。Gemini 1.5 Flash 是一个为规模化构建的更轻量级的模型,针对以低延迟和成本为重的任务进行了优化,目前已在 AI Studio 和 Vertex AI 中提供。
更令人兴奋的是,在即将到来的更新中,Gemini 的上下文窗口将拓展至 200 万 Tokens,支持其同时处理 2 小时的视频、22 小时的音频、超过 60,000 行代码或超过 140 万个单词。
价格方面,Gemini 1.5 Pro 为7美元/100万 Tokens,对于 128k 以下的输入,将降价 50% 至 3.5 美元/100 万 Tokens;Gemini 1.5 Flash 的价格则为 0.35 美元/100 万 Tokens。
新的突破:AI Agent 扛旗,媒体工具多点开花
基于 Gemini 打造的 Project Astra 是本次备受关注的一项创新。演示视频中,Astra 能够通过手机摄像头或智能眼镜进行识别和分析,包括识别物体甚至代码,寻找眼镜、推理位置等,并与用户进行实时语音交互。同时,通过连续编码视频帧、将视频和语音输入组合到事件时间线中,并缓存这些信息以进行有效回忆,Astra 能够快速处理信息并给出反馈。
https://www.bilibili.com/video/BV1Et421M7Dm/?aid=1754600635&c...
另一项重大突破来自全新视频生成模型 Veo。Veo 建立在 Google 多年的生成视频模型的基础上,包括生成查询网络(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere等各类技术,具备对自然语言有先进的理解能力,能够理解“延时摄影”、“航拍风景”等电影术语。用户可以使用文本、图像或视频提示指导其制作和编辑 70 秒以上不同视觉风格的 1080p 视频。在演示视频中,Veo 生成的视频镜头具有不错一致性和连贯性,人物、动物和物体在整个镜头中的移动都非常逼真。
除此以外,Google 在图像、音乐领域都带来了创新媒体工具。图像领域,Google 推出了目前最高质量的文生图模型 Imagen 3,与 Imagen 2 相比,Imagen 3 生成图像细节更丰富、更真实,且能准确理解复杂文本提示,比如人物照片中的背景虚化效果、人物跟背景中植物和建筑的关系。音乐方面,Google 携手 YouTube打造了一套专业的 AI 音乐创作工具 Music AI Sandbox,可以帮助创作者从0开始快速创作,得到了制作人的高度肯定。
新的融合:全线融入,Gemini 驱动产品创新
“我们希望每个人都能从 Gemini 的功能中受益。”Sundar Pichai说。Google已将Gemini全面融入产品,包括Google Search、Gmail、NotebookLM、Android等。
“Google 搜索是人类浩瀚好奇心的生成式 AI,这是我们搜索领域最激动人心的篇章。”Sundar Pichai 首先向现场观众介绍了 Gemini 在搜索方面的创新。AI Overviews 在过去的一年中,已经回答了数十亿个搜索查询,有效提升了搜索使用量和用户满意度。Ask photos 则展示了 AI 如何与Google Photo 结合,实现更复杂的搜索,带来更优秀的搜索体验,包括识别车牌号、搜索并整合女儿学习游泳的回忆照片。
Gemini 1.5 Pro 现已应用在 Workspace Labs 中。用户可利用Gemini 识别邮件,分析总结 PDF 等附件,转换来自 Google Meet的录音并形成摘要,以及起草回复邮件等,甚至借助 AI Agent 完成电子商务退货等复杂操作。值得一提的是,Gemini 是有理解语境能力的,AI 知道之前的邮件中都说了什么。
Gemini 也已能够与 NotebookLM的 Audio Overview 功能很好地结合。通过 Gemini 1.5 Pro,基于源文件生成个性化和交互式音频对话,为创新教育带来更多可能性。
更重要的是,谷歌把Gemini带到了 Android 系统中,使其成为 Android 体验的基础。依托内置的 Circle to Search 功能,用户使用简单的手势“圈”一下手机上看到的任何内容,就能进行搜索;用户还可以在一个应用之上随时调出 Gemini 助手层,无需来回切换。同时,利用 Gemini Nano,系统能有效地实时监听“通常与诈骗相关的对话模式”,听到关键词就能马上给出警报;Gemini Nano还为视障人士提供了端侧的 TalkBack 读屏功能,借助多模态能力,可以更加清晰的描述一张图片,比如服装的款式。
得益于 Gemini 在多模态和长上下文方面的突破,我们看到了 Gemini 如何通过整合以各种方式输入的全球信息,使其可以通过任何输出方式被获取,并将全球信息与个人世界中的信息结合起来,以一种真正对人类有用的方式进行呈现,从而真正让 AI 助力每个人。
新的扩展:Gemma 重大更新,以小博大性能更优
Gemma 是谷歌的开源模型系列,采用与创建 Gemini 模型相同的研究和技术构建,将于今年 6 月迎来重大更新。
下一代开源模型 Gemma2 将采用全新架构,支持270亿参数大小。据悉,Gemma 2 27B 性能媲美 Llama 3 70B,尺寸却不到 Llama 3 70B 的一半,可在 NVIDIA GPUs 或 Vertex AI 单个 TPU 主机上运行。这一设计使其兼具突破性性能和效率,也为其在各种应用场景中的部署提供了更多可能性。Google 实验室副总裁 Josh Woodward 表示,“我们已经看到了一些优秀的品质。Gemma 2 的表现已经超过比它大两倍的模型。”
目前外部开发人员能够使用预训练的 Gemma 变体 PaliGemma,是 Gemma 家族中首个视觉语言模型,适用于图像标题、图像标签和视觉问答用例。
新的底气:硬件升级,Google 推出第六代 TPU 芯片
长期以来,TPU 都在为 Google 许多最受欢迎的服务提供支持,包括实时语音搜索、照片对象识别、交互式语言翻译以及 Gemini、Imagen 和 Gemma 等多项创新。本次,Google 带来了第六代 TPU 芯片 Trillium。这是Google 迄今为止性能最强、效率最高的 TPU,相比上一代每颗芯片的峰值计算性能提高了 4.7倍,节能 67% 以上。
Google Cloud 的一些客户已经制定了使用 Trilium TPU 的计划。例如,Google DeepMind将使用新芯片来训练和服务下一代 Gemini 模型,并且比以前更快、更高效、延迟更低。此外,一家名为 Deep Genomics Inc. 的公司正计划使用 Trilium TPU 来推进人工智能药物研究。
Sundar Pichai 表示,“25 年来,我们一直在投资世界一流的技术基础设施,从支持搜索的尖端硬件,到为我们的 AI 进步提供支持的定制张量处理单元。我们将在 2024 年底向 Cloud 客户提供 Trillium。”
Google 还提及了 AI 超级计算机和覆盖了超 200 万英里的陆地和海底光纤等基建部署,以推进 AI 创新并提供最先进的功能。
此外,Google 利用 DeepMind 的AlphaGO 构建了 AI 辅助红队测试的尖端技术,以限制有问题的输出;并将 SynthID 水印工具扩展到文本和视频两种新的模态,使其更容易识别 AI 生成的内容,从而践行负责任的 AI。
从软件层面的技术突破到硬件产品的高效创新,透过今年 I/O 大会,我们得以窥见 Google在 AI First 战略驱动下,通过持续创新描摹的美好未来。
这趟通往 AGI 的旅程,优胜者或未可知,但 Google 已经准备好了。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。