谷歌推出Gemini 1.5 Flash,实现更低延迟和更高效的AI服务

Gemini Flash 概述

Gemini Flash 是 Gemini 家族中的轻量级 AI 模型,旨在比 Gemini Pro 更快、更高效,同时提供相同的突破性上下文窗口,支持一百万个 tokens。

主要特点

  1. 高效性与低成本:Gemini 1.5 Flash 针对高容量、高频任务进行了优化,服务成本更低,但保留了多模态推理能力,包括文本、音频和视频生成。
  2. 应用场景:擅长摘要生成、聊天应用、图像和视频字幕生成、长文档和表格数据提取等任务。
  3. 响应速度:在大多数用例中,用户输入查询后不到一秒即可看到模型输出(次秒级首次 token 延迟)。

技术基础

  • 模型蒸馏:Gemini Flash 从 Gemini Pro 中“蒸馏”而来,保留了后者的核心知识和技能,但更紧凑。
  • 继承改进:继承了 Gemini 1.5 Pro 的所有改进,包括高效的 Mixture-of-Experts (MoE) 架构、更大的上下文窗口和增强的性能。

上下文窗口

  • 支持规模:Gemini 1.5 模型支持高达两百万 tokens 的上下文窗口,Gemini 1.5 Flash 默认支持一百万 tokens。
  • 处理能力:可以一次性处理一小时的视频、11 小时的音频、超过 3 万行代码的代码库或超过 70 万字的信息。

性能提升

  • 功能增强:包括代码生成、逻辑推理和规划、多轮对话、音频和图像理解等。
  • 基准表现:Gemini 1.5 Pro 在大多数基准测试中优于 Gemini 1.0 Ultra,而 Gemini 1.5 Flash 则优于 Gemini 1.0 Pro。

相关更新

  • Gemini Nano:Google 还更新了用于设备端推理的 Gemini Nano 模型,版本升级至 1.0,新增了对图像的理解能力,并计划扩展至声音和口语。

发布与可用性

  • 预览阶段:Gemini 1.5 Pro 和 Flash 目前处于预览阶段。
  • 正式发布:将于 6 月通过 Google AI Studio 和 Vertex AI 正式上线。
阅读 32
0 条评论