谷歌推出具有高级编辑和一致性功能的 Gemini 2.5 闪存图像

主要观点:Google 发布了 Gemini 2.5 Flash Image(昵称 nano-banana),这是其最新的图像生成和编辑模型,是 Gemini 2.5 系列的一部分,在早期 Flash 模型基础上进行了升级,包括字符一致性、多图像融合、精确提示编辑和世界知识整合等。
关键信息

  • 引入多项升级,超越早期 Flash 模型的局限。
  • 技术重点是字符一致性,保持同一主体在不同提示或编辑下可识别。
  • 支持提示基于的图像编辑,如背景调整等操作。
  • 具备多图像融合能力。
  • 受益于世界知识整合,在语义推理场景中有优势。
  • 基于 Gemini 2.0 Flash 的低延迟和高效,融入社区反馈。
  • 现已通过 Gemini API、Google AI Studio 和 Vertex AI 以预览形式提供,几周后将达到完全稳定,定价为每 100 万输出令牌 30 美元,每张图像约 0.039 美元。
    重要细节
  • Gemini 2.0 Flash 主要以速度和效率著称,图像生成功能在质量和编辑精度上有限。
  • 工业设计师 Thomas Broen 测试后分享了对模型编辑自己图像等方面的印象。
  • Google 更新了 Google AI Studio 的构建模式,以方便实验。
阅读 192
0 条评论