谷歌推出Gemini 1.5 Flash，实现更低延迟和更高效的AI服务 - SegmentFault 思否

谷歌推出Gemini 1.5 Flash，实现更低延迟和更高效的AI服务

发布于 2024-05-19

Gemini Flash 概述

Gemini Flash 是 Gemini 家族中的轻量级 AI 模型，旨在比 Gemini Pro 更快、更高效，同时提供相同的突破性上下文窗口，支持一百万个 tokens。

主要特点

高效性与低成本：Gemini 1.5 Flash 针对高容量、高频任务进行了优化，服务成本更低，但保留了多模态推理能力，包括文本、音频和视频生成。
应用场景：擅长摘要生成、聊天应用、图像和视频字幕生成、长文档和表格数据提取等任务。
响应速度：在大多数用例中，用户输入查询后不到一秒即可看到模型输出（次秒级首次 token 延迟）。

技术基础

模型蒸馏：Gemini Flash 从 Gemini Pro 中“蒸馏”而来，保留了后者的核心知识和技能，但更紧凑。
继承改进：继承了 Gemini 1.5 Pro 的所有改进，包括高效的 Mixture-of-Experts (MoE) 架构、更大的上下文窗口和增强的性能。

上下文窗口

支持规模：Gemini 1.5 模型支持高达两百万 tokens 的上下文窗口，Gemini 1.5 Flash 默认支持一百万 tokens。
处理能力：可以一次性处理一小时的视频、11 小时的音频、超过 3 万行代码的代码库或超过 70 万字的信息。

性能提升

功能增强：包括代码生成、逻辑推理和规划、多轮对话、音频和图像理解等。
基准表现：Gemini 1.5 Pro 在大多数基准测试中优于 Gemini 1.0 Ultra，而 Gemini 1.5 Flash 则优于 Gemini 1.0 Pro。

相关更新

Gemini Nano：Google 还更新了用于设备端推理的 Gemini Nano 模型，版本升级至 1.0，新增了对图像的理解能力，并计划扩展至声音和口语。

发布与可用性

预览阶段：Gemini 1.5 Pro 和 Flash 目前处于预览阶段。
正式发布：将于 6 月通过 Google AI Studio 和 Vertex AI 正式上线。

Google Launches Gemini 1.5 Flash for Lower-Latency and More Efficient AI Serving

https://www.infoq.com/news/2024/05/gemini-1-5-flash/

阅读 79

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。