谷歌推出具有高级编辑和一致性功能的 Gemini 2.5 闪存图像

发布于 2025-09-03

主要观点：Google 发布了 Gemini 2.5 Flash Image（昵称 nano-banana），这是其最新的图像生成和编辑模型，是 Gemini 2.5 系列的一部分，在早期 Flash 模型基础上进行了升级，包括字符一致性、多图像融合、精确提示编辑和世界知识整合等。
关键信息：

引入多项升级，超越早期 Flash 模型的局限。
技术重点是字符一致性，保持同一主体在不同提示或编辑下可识别。
支持提示基于的图像编辑，如背景调整等操作。
具备多图像融合能力。
受益于世界知识整合，在语义推理场景中有优势。
基于 Gemini 2.0 Flash 的低延迟和高效，融入社区反馈。
现已通过 Gemini API、Google AI Studio 和 Vertex AI 以预览形式提供，几周后将达到完全稳定，定价为每 100 万输出令牌 30 美元，每张图像约 0.039 美元。
重要细节：
Gemini 2.0 Flash 主要以速度和效率著称，图像生成功能在质量和编辑精度上有限。
工业设计师 Thomas Broen 测试后分享了对模型编辑自己图像等方面的印象。
Google 更新了 Google AI Studio 的构建模式，以方便实验。

阅读 297