Google发布Gemini 2.0 AI模型家族
12月,Google发布了其下一代AI模型家族Gemini 2.0,首款实验性版本为Gemini 2.0 Flash。该模型家族能够生成文本、图像和语音,并处理多种输入类型,包括文本、图像、音频和视频,类似于OpenAI的GPT-4o等多模态AI模型。
Gemini 2.0 Flash的特点
Google表示,Gemini 2.0 Flash在1.5 Flash的基础上增强了性能,同时保持了快速的响应时间。它在关键基准测试中甚至超越了1.5 Pro,速度是后者的两倍。尽管Gemini 2.0 Flash是2.0家族中参数最少的模型,但其图像生成和文本转语音功能目前仅限于早期访问合作伙伴,预计2025年1月全面开放。Google计划将该技术整合到Android Studio、Chrome DevTools和Firebase等产品中。
防止滥用生成内容
为了防止生成内容的滥用,Google在所有由Gemini 2.0 Flash生成的音频和图像上应用了SynthID水印技术。该水印在支持的Google产品中显示,以识别AI生成的内容。
代理式AI系统
Google的新发布强调了代理式AI系统的概念,这些系统可以代表用户采取行动。Google CEO Sundar Pichai表示,过去一年公司一直在投资开发更具代理性的模型,这些模型能够理解周围环境、提前思考并在用户监督下代表用户采取行动。
Gemini 2.0的应用
Project Astra
Project Astra是一个视觉AI助手原型,现已更新,能够处理多种语言、使用Google搜索和地图,并记住长达10分钟的对话。
游戏AI代理
Google与游戏开发商Supercell合作,创建了能够理解游戏玩法并提供实时建议的AI代理,展示了在《Squad Busters》、《Clash of Clans》和《Hay Day》等游戏中的应用。
Project Mariner
Project Mariner是一个新的Chrome扩展原型,通过理解屏幕内容和浏览器元素,以代理方式帮助用户完成基于网络的任务,类似于微软的Copilot Vision。
Jules和Multimodal Live API
Google推出了Jules,一个实验性的AI编码代理,可在GitHub工作流程中帮助开发者规划和执行编程任务。新的Multimodal Live API支持创建具有实时音频和视频流功能的应用程序,并支持与外部工具的集成,处理自然对话模式如中断。
未来发展
Google强调,Gemini 2.0仍在开发初期,未来将通过更新、更大的模型和增强功能逐步推出。公司期待通过信任测试者的使用反馈,学习经验教训,以便在未来更广泛地应用于产品中。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。