Google DeepMind推出Gemini 2.0
Google DeepMind近日发布了Gemini 2.0,这一AI模型在处理速度上比其前身Gemini 1.5 Pro快两倍,并支持复杂的多模态任务,能够结合文本、图像等输入进行高级推理。Gemini 2.0基于JAX/XLA框架构建,具备大规模优化能力,并引入了新功能如Deep Research,用于探索复杂主题。该模型目前已向开发者和受信任的测试者开放,并将很快集成到Google的Gemini和Search等产品中。
Gemini 2.0的性能提升
Gemini 2.0在速度和准确性上实现了显著飞跃。例如,Gemini 2.0 Flash在关键基准测试中优于之前的1.5 Pro模型,同时保持了两倍的处理速度。此外,该模型展示了多模态集成能力,支持结合文本和视觉推理的任务,或执行涉及多种输入和输出类型的复杂指令。
技术背景与开源
Google工程副总裁Bill Jia表示,Gemini 2.0完全基于JAX/XLA AI框架/编译器构建和训练,该框架已开源并共享给全球使用。模型的训练规模庞大,优化、微调、评估及集成到终端用户产品的过程均推动了前沿技术的发展。
新功能与应用场景
Gemini 2.0引入了Deep Research功能,作为研究助手,利用高级推理和长上下文能力探索复杂主题并生成报告。该功能已在Gemini Advanced中上线。此外,Gemini 2.0适用于多种实际应用场景,包括:
- Project Astra:展示高级多模态理解的AI助手原型,能够使用Google Maps、Search和Lens。
- Project Mariner:演示如何在浏览器中直接执行填写表格或分析内容等任务。
- Jules:集成到GitHub工作流程中的开发助手,在人类监督下协助编码任务。
在游戏与机器人领域的潜力
Gemini 2.0在游戏领域中能够实时分析游戏玩法,提供战略建议。其空间推理能力也在机器人领域进行测试,潜在应用包括物理世界中的导航和问题解决。
安全与隐私
Google DeepMind将安全性作为Gemini 2.0开发的核心原则,集成了防止未授权操作、保护用户隐私及应对恶意提示注入等风险的机制。模型设计还允许用户通过强大的隐私控制管理敏感信息。
社区反馈
社区对Gemini 2.0的反应热烈。例如,CX领导者Raj Nair评论称,Google在AI开发上取得了令人印象深刻的进展,Gemini 2.0、Project Mariner和编码助手等功能展示了AI从实验性到实际应用的转变,将重塑从网页浏览到开发工作流程的各个行业。
更多信息可参考官方文档。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。