Gemini 2.0 系列扩展，推出经济型 Flash-Lite 和专业实验模型

发布于 2 月 13 日

Google Gemini 2.0 模型家族概览

主要观点

Google 在去年 12 月宣布了 Gemini 2.0 模型家族，并新增了两个成员：Gemini 2.0 Flash-Lite 和 Gemini 2.0 Pro。Gemini 2.0 Flash-Lite 是针对大规模文本输出场景进行成本优化的模型，而 Gemini 2.0 Pro 则专注于编码性能和复杂提示处理。此外，Google 还推出了实验性模型 Gemini 2.0 Flash Thinking，旨在通过分解任务和解释“思考”过程来提升推理能力。

关键信息

Gemini 2.0 Flash-Lite

特点：与 Gemini 1.5 Flash 相同的速度和成本，但提供更高的质量，并支持与 2.0 Flash 相同的 100 万上下文窗口。
限制：
- 不支持图像或音频输出。
- 不支持“搜索作为工具”或“代码执行作为工具”这两种提升模型答案准确性的技术。
- 无法通过 Multimodal Live API 使用。
性能：
- 在 SimpleQA（测试事实性知识）和 BirdSQL（评估自然语言转 SQL）基准测试中显著优于 1.5 Flash。
- 在 MRCR（评估长上下文理解）和 LiveCodeBench（测试 Python 编码）等基准测试中略逊于 1.5 Flash。
- 在多个基准测试中（如 Bird-SQL、FACTS Grounding、MATH 和 MMMU）表现优于或与 1.5 Pro 相当。

Gemini 2.0 Pro

特点：专注于编码性能和复杂提示处理，是 Google 迄今为止在大多数基准测试中表现最佳的模型。
性能：
- 在 SimpleQA 基准测试中比第二好的 2.0 Flash 提升了 50%。
- 在 Facts 基准测试中略逊于 2.0 Flash，在长上下文理解上略逊于 1.5 Pro。
状态：仍处于实验阶段，正式发布前性能可能有所变化。

Gemini 2.0 Flash Thinking

特点：实验性模型，遵循 AI 推理模型趋势，能够分解提示为多个小任务并制定解决策略，同时解释其“思考”过程。

重要细节

用户反馈：
- Reddit 上有用户认为新模型相较于 Gemini 1.5 的改进“相当平庸”，但实际使用中的性能显著优于基准测试结果。
- Hacker News 用户讨论了 Gemini 2.0 的 100 万和 200 万上下文窗口可能使 RAG 技术在许多场景中变得多余，但也存在成本和性能随上下文长度下降的问题。
与 GPT-4 的对比：
- Gemini 2.0 在文本理解、代码生成和多模态集成方面领先，而 GPT-4 在常识推理任务上保持优势。
开发工具：所有 Gemini 2.0 模型均可通过 Google AI Studio 和 Vertex AI 使用。

Gemini 2.0 Family Expands with Cost-Efficient Flash-Lite and Pro-Experimental Models

https://www.infoq.com/news/2025/02/gemini-2-flash-lite-pro-models/

阅读 22

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。