大家好,这里是架构资源栈!点击上方关注,添加“星标”,一起学习大厂前沿架构!
视觉末日可能已经临近,但或许眼见为实。
使用 OpenAI 的 4o 图像生成模型在 ChatGPT 中创建的三幅 AI 生成图像。来源:OpenAI
OpenAI 的 DALL-E 2 于 2022 年春季问世,标志着人工智能的一个转折点,文本到图像的生成突然变得可供特定用户群体使用,从而创建了一个数字探索者社区,随着该技术使视觉创作行为自动化,他们经历了惊奇和争议。
但与许多早期的人工智能系统一样,DALL-E 2 在文本渲染方面存在困难,经常在图像中产生乱码单词和短语。它在遵循包含多个元素的复杂提示方面也存在局限性,有时会遗漏关键细节或误解指令。这些缺点留下了改进的空间,OpenAI 将在后续迭代中解决这些问题,例如2023 年的DALL-E 3。
周二,OpenAI宣布了新的多模态图像生成功能,该功能直接集成到其 GPT-4o AI 语言模型中,使其成为 ChatGPT 界面中的默认图像生成器。该集成称为“4o 图像生成”(我们简称为“4o IG”),它使模型能够更准确地遵循提示(文本渲染效果比 DALL-E 3 更好)并响应聊天上下文以获取图像修改指令。
由 OpenAI 的 4o 图像生成模型创建的 AI 生成的猫在车里喝着一罐啤酒 。OpenAI
亚伯拉罕·林肯手持 Ars Technica 标志的 AI 照片由 OpenAI 的 4o 图像生成模型创建 。OpenAI
由 OpenAI 的 4o 图像生成模型创建的 AI 生成的图像“CRT 电视机旁边手持武器的肌肉发达野蛮人,电影级、8K、演播室灯光”。
新的图像生成功能于周二开始向 ChatGPT Free、Plus、Pro 和 Team 用户推出,企业版和教育版稍后推出。该功能也可在 OpenAI 的 Sora 视频生成工具中使用。OpenAI 告诉 Ars,选择 GPT-4.5 时的图像生成调用与在 ChatGPT 界面中选择 GPT-4o 时相同的基于 4o 的图像生成模型。
就像之前的 DALL-E 2 一样,4o IG 必将引发争议,因为它将曾经是科幻小说和熟练的人类创作者的专属领域的复杂媒体操控功能变成了一种易于操作的人工智能工具,人们可以通过简单的文本提示来使用。它还可能引发新一轮关于艺术风格和版权的争议——但更多内容见下文。
Ars 视频
4o IG 可以改变我们对媒体现实的看法。鉴于这张狗的真实照片…… Benj Edwards
...AI 模型可以以逼真的方式改变狗的行为,例如与插入场景中的虚构小狗玩耍。OpenAI / Benj Edwards
社交媒体上的一些用户最初表示困惑,因为 UI 上没有显示哪个图像生成器处于活动状态,但如果生成速度极慢且从上到下进行,您就会知道这是新型号。之前的 DALL-E 型号仍可通过专用的“DALL-E GPT”接口使用,而 GPT-4o 图像生成的 API 访问预计在几周内推出。
真正的多模式输出
4o IG 代表着向“原生多模态图像生成”的转变,大型语言模型直接处理图像数据并将其输出为标记。这是一件大事,因为这意味着图像标记和文本标记共享同一个神经网络。这为图像创建和修改带来了新的灵活性。
尽管 GPT-4o 于 2024 年 5 月推出时就已具备多模态图像生成功能(当时 GPT-4o 中的“o”被吹捧为代表“omni”,以突出其理解和生成文本、图像和音频的能力),但 OpenAI 花了 10 个多月的时间才将这项功能提供给用户,尽管 OpenAI 总裁 Greg Brock去年在 X 上透露了这项功能。
OpenAI 很可能是受到谷歌上周发布的多模态 LLM 图像生成器“ Gemini 2.0 Flash(图像生成)实验版”的刺激。这两家科技巨头继续展开人工智能军备竞赛,每家都试图超越对方。
我们或许知道 OpenAI 为何等待:在合理的分辨率和细节水平下,新的 4o IG 流程极其缓慢,每张图像需要 30 秒到 1 分钟(或更长时间)。
在 ChatGPT 中使用 OpenAI 的 4o 图像生成模型生成四格漫画。OpenAI / Benj Edwards
使用 OpenAI 的 ChatGPT 中的 4o 图像生成模型为四格漫画中的男人添加胡须。OpenAI / Benj Edwards
即使速度很慢(就目前而言),使用纯自回归方法生成图像的能力对于 OpenAI 来说可以说是一次重大飞跃,因为它非常灵活。但它也非常耗费计算资源,因为模型会逐个生成图像标记,按顺序构建图像。这与基于扩散的方法(如 DALL-E 3)形成了鲜明对比,后者从随机噪声开始,并通过许多迭代步骤逐渐细化整个图像。
对话式图像编辑
OpenAI 在一篇博客文章中将 4o 图像生成定位为超越早期 AI 图像生成器所见的生成“超现实、令人惊叹的场景”,并朝着创建用于通信的徽标和图表等“主力图像”的方向发展。
该公司特别指出了图像内文本渲染功能的改进,以前的文本到图像模型经常会失败,经常将“生日快乐”变成类似外星象形文字的东西。
OpenAI 声称取得了几项关键改进:用户可以通过对话来优化图像,同时保持视觉一致性;系统可以分析上传的图像并将其细节纳入新一代图像中;它提供了更强的照片级真实感——尽管构成照片级真实感的因素(例如,模仿 HDR 相机功能、细节级别和图像对比度)可能是主观的。
ChatGPT 中 OpenAI 的 4o 图像生成模型的屏幕截图。我们看到了一张现有的 AI 生成的野蛮人和电视机的图像,然后是放火烧电视机的请求。图片来源:OpenAI / Benj Edwards
OpenAI 在其博客文章中提供了图像生成器的预期用途示例,包括创建图表、信息图表、使用特定颜色代码的社交媒体图形、徽标、说明海报、名片、具有透明背景的自定义库存照片、编辑用户照片或可视化聊天对话中先前讨论过的概念。
值得一提的是:没有提到哪些艺术家和平面设计师的工作可能会受到这项技术的影响。正如我们在2022 年和2023 年所报道的那样,工作影响仍然是人工智能生成图形批评者最关心的问题。
流体介质操纵
OpenAI 推出 4o 图像生成后不久,X 上的 AI 社区对该功能进行了测试,发现它能够将某人的脸部插入现有图像、创建虚假截图,以及将模因照片转换成吉卜力工作室、南方公园、毛毡、布偶、_瑞克和莫蒂_、恶搞_之家_等风格。[](https://x.com/fofrAI/status/1904945543295516772)
似乎我们正在进入一个完全流动的媒体“现实”,这要归功于一种可以毫不费力地在各种风格之间转换视觉媒体的工具。这些风格还可能侵犯受保护的知识产权。鉴于吉卜力工作室联合创始人宫崎骏之前对人工智能生成的艺术作品的评价(“我强烈地感觉到这是对生命本身的侮辱”),似乎他目前不太可能欣赏 X 上人工智能生成的吉卜力风潮。
X 上的人们将网络迷因转换成“吉卜力工作室”风格的艺术作品。OpenAI / Barsee[](https://x.com/heyBarsee/status/1904891940522647662)
X 上的人们将互联网迷因转换成“吉卜力工作室”风格的艺术作品。OpenAI / Justine Moore[](https://x.com/venturetwins/status/1904781690989666656)
X 上的人们将互联网迷因转换成“吉卜力工作室”风格的艺术作品。OpenAI / Justine Moore[](https://x.com/venturetwins/status/1904915503505670246)
X 上的人们将互联网迷因转换成“吉卜力工作室”风格的艺术作品。OpenAI / Manuel Calavera[](https://x.com/ManuelSanchezX/status/1904963982768697546)
为了了解 4o IG 自己能做什么,我们进行了一些非正式测试,包括一些常见的 CRT 野蛮人、宇宙女王和喝啤酒的猫,您已经在上文中看到过(当然还有那盘泡菜)。
采用新 4o 图像模型的 ChatGPT 界面具有对话功能(与之前的 DALL-E 3 一样),但您可以随着时间的推移提出更改建议。例如,我们采用了作者的 EGA 像素简历(就像我们上周对Google 的模型所做的那样),并尝试为其添加一个完整的主体。可以说,Google 更有限的图像模型比 4o IG 做得好得多。
使用 OpenAI 的 4o 图像生成模型在 ChatGPT 中为作者的像素头像赋予主体。图片来源:OpenAI / Benj Edwards
虽然我的像素头像是在 2020 年受非常人性化(且才华横溢)的Julia Minamata委托设计的,但我也尝试将我的头像的灵感图像(以我和传奇视频游戏工程师Ed Smith为特色)转换为 EGA 像素风格,看看会发生什么。在我看来,结果证明了人类艺术和对细节的关注的持续优越性。
使用 OpenAI 的 ChatGPT 中的 4o 图像生成模型将 Benj Edwards 和视频游戏传奇人物 Ed Smith 的照片转换为“EGA 像素艺术”。图片来源:OpenAI / Benj Edwards
我们还尝试查看 4o 图像生成可以在一张图片中塞入多少个物体,这是受到Nathan Shipley在 2023 年发布的一条推文的启发,当时他在评估 DALL-E 3 时刚刚发布。我们没有考虑到每一个物体,但看起来大多数物体都在那里。
生成一张冲浪者手持大量物品的图像,灵感来自 Nathan Shipley 于 2023 年发布的一条 Twitter 帖子。图片来源: OpenAI / Benj Edwards
在社交媒体上,其他人已经使用 4o IG 处理过图像(例如 Simon Willison 的熊自拍照),因此我们尝试更改去年一篇文章中介绍的 AI 生成的注释。虽然它并没有真正模仿要求的笔迹风格,但效果相当不错。
使用 OpenAI 的 ChatGPT 中的 4o 图像生成模型修改图像中的文本。图片来源:OpenAI / Benj Edwards
为了进一步提高文本生成能力,我们使用 ChatGPT 生成了一首关于野蛮人的诗歌,然后将其输入到图像提示中。结果感觉与基于扩散的Flux功能大致相当 - 可能略胜一筹 - 但仍然有一些明显的错误,例如重复的字母。
在 ChatGPT 中使用 OpenAI 的 4o 图像生成模型测试文本生成。图片来源:OpenAI / Benj Edwards
我们还测试了该模型为我们最喜欢的虚构 Moonshark 品牌创建徽标的能力。这里未显示的一个徽标以带有 alpha 通道的透明 PNG 文件形式提供。对于某些急需的人来说,这可能是一种有用的功能,但在某种程度上,该模型可以以 0 美元的价格(不包括 OpenAI 订阅)制作“足够好”(不是特别好,但乍一看还不错)的徽标,它最终可能会与一些人类徽标设计师竞争,这可能会引起专业艺术家的惊愕。
使用 OpenAI 的 4o 图像生成模型在 ChatGPT 中生成“Moonshark Moon Pies”徽标。图片来源:OpenAI / Benj Edwards
坦白说,这个模型太慢了,在发表这篇文章之前,我们没有时间测试所有内容。它能做的远不止我们在这里展示的那么多——比如向场景中添加项目或删除它们。我们可能会在以后的文章中探索更多功能。
限制
到目前为止,您已经看到,与之前的 AI 图像生成器一样,4o IG 的质量并不完美:它始终将作者的鼻子渲染为不正确的尺寸。
除此之外,虽然这是有史以来最强大的 AI 图像生成器之一,但 OpenAI 公开承认该模型存在重大局限性。例如,4o IG 有时会将图像裁剪得太紧,或者在模糊提示中包含不准确的信息(虚构),或者在渲染训练数据中没有遇到的主题时包含不准确的信息(虚构)。
该模型在同时渲染 10-20 个以上的对象或概念时也容易失败(使得生成准确的元素周期表等任务目前无法完成),并且难以处理非拉丁文本字体。目前,图像编辑在多次传递后不可靠,存在一个影响面部编辑一致性的特定错误,OpenAI 表示计划很快修复该错误。而且,它在处理密集图表或准确渲染图形或技术图表时效果不佳。在我们的测试中,4o Image Generation 生成的电子电路原理图大多准确,但有缺陷。
快速行动,打破一切
即使存在这些限制,多模态图像生成器仍是迈向更广阔的完全可塑媒体现实世界的早期一步,在这个世界里,任何像素都可以根据需要进行操作,无需任何特殊的照片编辑技能。这带来了潜在的好处、道德陷阱和严重滥用的可能性。
与 DALL-E 相比,OpenAI 的一个显著变化是,现在 4o IG 允许在采取某些保护措施的情况下生成成年公众人物(而非儿童),同时允许公众人物在需要时选择退出。与 DALL-E 一样,该模型仍会阻止违反政策的内容请求(例如暴力画面、裸露画面和性爱画面)。
4o Image Generation 能够模仿名人肖像、品牌徽标和吉卜力工作室的电影,这再次印证了 GPT-4o 在某种程度上(除了部分授权内容)是大规模抓取互联网内容的产物,而没有考虑版权或艺术家的同意。这种大规模抓取行为在过去曾导致针对 OpenAI 的诉讼,我们不会惊讶地看到更多诉讼,或者至少是名人(或其遗产所有者)公开投诉他们的肖像可能被滥用。
OpenAI 首席执行官 Sam Altman 在 X 上撰文谈到了该公司对 4o IG 的漠不关心的态度:“这代表我们在允许创作自由方面达到了一个新的高水位。人们会创造出一些真正令人惊叹的东西,也可能会冒犯他人的东西;我们的目标是,除非你愿意,否则该工具不会创造出令人反感的东西,在这种情况下,它会在合理范围内产生。”
作者的原始照片旁边是 OpenAI 的 4o 图像生成模型创建的 AI 生成图像。从左到右依次为:吉卜力工作室风格、布偶风格和意大利面风格。图片来源:OpenAI / Benj Edwards
从广义上看,GPT-4o 的图像生成模型(以及其背后的技术,一旦开源)似乎进一步削弱了人们对远程制作媒体的信任。虽然我们一直需要通过背景和可信来源来验证重要媒体,但这些新工具可能会进一步扩大人工智能时代所必需的“深度怀疑”媒体怀疑论。通过向大众开放照片级逼真的图像处理,比以往任何时候都有更多的人可以在没有专业技能的情况下创建或修改视觉媒体。
尽管 OpenAI 在所有生成的图像中都包含C2PA元数据,但这些数据可以被剥离,在欺骗性社交媒体帖子的背景下可能并不重要。但 4o IG 并没有改变一直以来的事实:我们判断信息的主要依据是信息传递者的声誉,而不是像素本身。伪造早在人工智能出现之前就存在了。它强调了每个人都需要媒体素养技能——理解背景和来源验证一直是媒体真实性的最佳仲裁者。
目前,Altman 已准备好承担将这项技术推向世界的风险。Altman 在 X 上写道:“正如我们在模型规范中讨论的那样,我们认为将这种知识自由和控制权交到用户手中是正确的做法,但我们会观察其发展情况并听取社会的意见。我们认为尊重社会最终将为人工智能设定的非常宽泛的界限是正确的做法,而且随着我们越来越接近 AGI,这一点变得越来越重要。在此先感谢您在我们努力解决这一问题时给予的理解。”
原文地址:https://mp.weixin.qq.com/s/DpDEJErsaVj_FoU3TkQq0w
本文由博客一文多发平台 OpenWrite 发布!
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。