谷歌通过Gemini 2.0的雄心勃勃的AI代理功能迈向“代理化”

Google发布Gemini 2.0 AI模型家族

12月，Google发布了其下一代AI模型家族Gemini 2.0，首款实验性版本为Gemini 2.0 Flash。该模型家族能够生成文本、图像和语音，并处理多种输入类型，包括文本、图像、音频和视频，类似于OpenAI的GPT-4o等多模态AI模型。

Gemini 2.0 Flash的特点

Google表示，Gemini 2.0 Flash在1.5 Flash的基础上增强了性能，同时保持了快速的响应时间。它在关键基准测试中甚至超越了1.5 Pro，速度是后者的两倍。尽管Gemini 2.0 Flash是2.0家族中参数最少的模型，但其图像生成和文本转语音功能目前仅限于早期访问合作伙伴，预计2025年1月全面开放。Google计划将该技术整合到Android Studio、Chrome DevTools和Firebase等产品中。

防止滥用生成内容

为了防止生成内容的滥用，Google在所有由Gemini 2.0 Flash生成的音频和图像上应用了SynthID水印技术。该水印在支持的Google产品中显示，以识别AI生成的内容。

代理式AI系统

Google的新发布强调了代理式AI系统的概念，这些系统可以代表用户采取行动。Google CEO Sundar Pichai表示，过去一年公司一直在投资开发更具代理性的模型，这些模型能够理解周围环境、提前思考并在用户监督下代表用户采取行动。

Gemini 2.0的应用

Project Astra

Project Astra是一个视觉AI助手原型，现已更新，能够处理多种语言、使用Google搜索和地图，并记住长达10分钟的对话。

游戏AI代理

Google与游戏开发商Supercell合作，创建了能够理解游戏玩法并提供实时建议的AI代理，展示了在《Squad Busters》、《Clash of Clans》和《Hay Day》等游戏中的应用。

Project Mariner

Project Mariner是一个新的Chrome扩展原型，通过理解屏幕内容和浏览器元素，以代理方式帮助用户完成基于网络的任务，类似于微软的Copilot Vision。

Jules和Multimodal Live API

Google推出了Jules，一个实验性的AI编码代理，可在GitHub工作流程中帮助开发者规划和执行编程任务。新的Multimodal Live API支持创建具有实时音频和视频流功能的应用程序，并支持与外部工具的集成，处理自然对话模式如中断。

未来发展

Google强调，Gemini 2.0仍在开发初期，未来将通过更新、更大的模型和增强功能逐步推出。公司期待通过信任测试者的使用反馈，学习经验教训，以便在未来更广泛地应用于产品中。