Gemini 2.0 系列扩展,推出经济型 Flash-Lite 和专业实验模型

Google Gemini 2.0 模型家族概览

主要观点

Google 在去年 12 月宣布了 Gemini 2.0 模型家族,并新增了两个成员:Gemini 2.0 Flash-Lite 和 Gemini 2.0 Pro。Gemini 2.0 Flash-Lite 是针对大规模文本输出场景进行成本优化的模型,而 Gemini 2.0 Pro 则专注于编码性能和复杂提示处理。此外,Google 还推出了实验性模型 Gemini 2.0 Flash Thinking,旨在通过分解任务和解释“思考”过程来提升推理能力。

关键信息

Gemini 2.0 Flash-Lite

  • 特点:与 Gemini 1.5 Flash 相同的速度和成本,但提供更高的质量,并支持与 2.0 Flash 相同的 100 万上下文窗口。
  • 限制

    • 不支持图像或音频输出。
    • 不支持“搜索作为工具”或“代码执行作为工具”这两种提升模型答案准确性的技术。
    • 无法通过 Multimodal Live API 使用。
  • 性能

    • 在 SimpleQA(测试事实性知识)和 BirdSQL(评估自然语言转 SQL)基准测试中显著优于 1.5 Flash。
    • 在 MRCR(评估长上下文理解)和 LiveCodeBench(测试 Python 编码)等基准测试中略逊于 1.5 Flash。
    • 在多个基准测试中(如 Bird-SQL、FACTS Grounding、MATH 和 MMMU)表现优于或与 1.5 Pro 相当。

Gemini 2.0 Pro

  • 特点:专注于编码性能和复杂提示处理,是 Google 迄今为止在大多数基准测试中表现最佳的模型。
  • 性能

    • 在 SimpleQA 基准测试中比第二好的 2.0 Flash 提升了 50%。
    • 在 Facts 基准测试中略逊于 2.0 Flash,在长上下文理解上略逊于 1.5 Pro。
  • 状态:仍处于实验阶段,正式发布前性能可能有所变化。

Gemini 2.0 Flash Thinking

  • 特点:实验性模型,遵循 AI 推理模型趋势,能够分解提示为多个小任务并制定解决策略,同时解释其“思考”过程。

重要细节

  • 用户反馈

    • Reddit 上有用户认为新模型相较于 Gemini 1.5 的改进“相当平庸”,但实际使用中的性能显著优于基准测试结果。
    • Hacker News 用户讨论了 Gemini 2.0 的 100 万和 200 万上下文窗口可能使 RAG 技术在许多场景中变得多余,但也存在成本和性能随上下文长度下降的问题。
  • 与 GPT-4 的对比

    • Gemini 2.0 在文本理解、代码生成和多模态集成方面领先,而 GPT-4 在常识推理任务上保持优势。
  • 开发工具:所有 Gemini 2.0 模型均可通过 Google AI Studio 和 Vertex AI 使用。
阅读 10 (UV 10)
0 条评论