告别Photoshop?谷歌的新AI让你通过提问来编辑图像。

Google推出新型AI模型Gemini 2.0 Flash,支持图像生成与编辑

Google最近推出了名为Gemini 2.0 Flash的AI模型,该模型不仅能够生成和编辑图像,还能在聊天对话中无缝处理文本和图像任务。虽然目前生成的结果并不完美,但这一技术预示着未来大众将能够轻松地通过AI进行图像处理。

主要功能与特点

  1. 图像生成与编辑:Gemini 2.0 Flash可以添加或删除对象、修改场景、调整光线、改变图像角度、缩放图像等。尽管效果因图像内容和风格而异,但这一功能展示了AI在图像处理领域的潜力。
  2. 去除水印:该模型能够去除图像中的水印,尽管处理后的图像质量有所下降,并可能产生一些瑕疵。
  3. 多模态整合:与以往的AI聊天助手不同,Gemini 2.0 Flash将大型语言模型(LLM)和图像生成功能整合到一个系统中,无需调用外部的扩散模型(如DALL-E 3)。

技术背景

Google通过在大量图像和文本数据集上训练Gemini 2.0 Flash,使其能够将图像转换为令牌,并直接输出图像令牌,最终将其转换回图像。这种多模态技术使得模型能够在同一个神经网络中处理文本和图像信息。

与其他AI模型的对比

  • OpenAI的GPT-4o:虽然GPT-4o也具备原生图像输出能力,但OpenAI尚未发布真正的多模态图像输出功能,主要原因可能是计算成本过高。
  • 安全性考虑:多模态图像输出模型可能被滥用于生成深度伪造和虚假内容,这可能是OpenAI暂未发布该功能的原因之一。

实际测试

在测试中,Gemini 2.0 Flash展示了以下能力:

  • 移除对象:成功移除了草地上的兔子和车库中的鸡,并自动填充背景。
  • 添加对象:尝试在照片中添加UFO、大脚怪和幽灵,尽管结果不够真实,但展示了模型的可能性。
  • 图像变形:能够“放大”或“缩小”图像,甚至将角色插入冒险游戏中。
  • 去除水印:成功去除了Getty Images图片上的水印,但分辨率有所下降。

多模态输出的潜力

Gemini 2.0 Flash的多模态输出为聊天机器人带来了新的可能性,例如:

  • 互动图形游戏:可以生成具有一致角色和场景的互动游戏。
  • 多图像故事生成:能够生成带有连续插图的故事,尽管角色一致性仍有待提高。
  • 文本渲染:在生成包含文本的图像时表现优于其他竞争模型。

未来展望

尽管目前Gemini 2.0 Flash的图像输出质量尚不完美,但多模态图像输出的出现标志着AI技术的一个重要里程碑。随着训练技术的进步和计算成本的下降,未来AI模型可能能够实时生成各种类型的媒体内容,包括文本、图像、音频、视频、3D图形等,从而彻底改变媒体现实。

当前局限

Gemini 2.0 Flash的训练数据集较为有限,且模型并未涵盖所有视觉信息。Google表示,随着训练技术的改进和计算资源的增加,图像输出质量有望在未来得到显著提升。

总结

Gemini 2.0 Flash的推出展示了AI在图像生成与编辑领域的潜力,尽管目前仍存在一些局限性,但这一技术的未来发展前景广阔,可能彻底改变我们与媒体的互动方式。

阅读 120
0 条评论