OpenAI's DALL-E 2 and 4o IG:
- 2022 年春季 DALL-E 2 到来标志 AI 转折点,文本到图像生成对部分用户开放,引发了数字探索者社区的关注与争议(https://arstechnica.com/infor...)。
- DALL-E 2 存在文本渲染不一致、难以处理复杂提示等局限性,OpenAI 在后续迭代中进行改进,如 2023 年的 DALL-E 3(https://arstechnica.com/infor...)。
- 2025 年周二,OpenAI 宣布将新的多模态图像生成能力直接集成到 GPT-4o 语言模型中,成为 ChatGPT 界面内的默认图像生成器,即“4o Image Generation”(4o IG),其能更准确地遵循提示,响应聊天上下文进行图像修改(https://openai.com/index/intr...)。
4o IG 的特点:
- 代表向“原生多模态图像生成”转变,大型语言模型直接将图像数据作为令牌处理和输出,图像令牌和文本令牌共享同一神经网络,带来新的图像创建和修改灵活性(https://arstechnica.com/infor...)。
- 虽 2024 年 5 月 GPT-4o 推出时已具备多模态图像生成能力,但 OpenAI 花了 10 多个月才将其交付给用户,可能是受谷歌多模态 LLM 图像生成器 Gemini 2.0 Flash 的发布刺激(https://arstechnica.com/ai/20...)。
- 新 4o IG 过程在合理分辨率和细节水平下极其缓慢,每张图像需 30 秒到 1 分钟或更长时间。
4o IG 的功能:
- 可通过纯自回归方法生成图像,具有很大灵活性,但计算密集,模型逐个生成图像令牌并依次构建。
- 能超越早期 AI 图像生成器生成的“超现实、惊人场景”,向创建用于交流的“主力图像”转变,如改进图像内的文本渲染,用户可通过对话细化图像并保持视觉一致性,分析上传图像并将其细节纳入新生成中,提供更强的照片真实感等(https://openai.com/blog/intro...)。
- 示例包括创建图表、信息图、社交媒体图形、徽标、指令海报、名片、带有透明背景的自定义库存照片、编辑用户照片或可视化聊天中先前讨论的概念等,但未提及受影响的艺术家和图形设计师。
4o IG 的应用与影响:
- 在 X 上,AI 社区发现 4o IG 能将某人的脸插入现有图像、创建假截图、将 meme 照片转换为 Studio Ghibli、South Park、felt、Muppets、Rick and Morty、Family Guy等风格。
- 在 ChatGPT 界面中,4o IG 具有对话性,可随时间建议更改,如给作者的像素头像添加身体、将照片转换为 EGA 像素风格、生成包含大量物体的图像、修改图像中的文本、生成关于野蛮人的诗歌并将其转化为图像等,但存在一些明显错误,如重复字母。
- 还能创建带有透明背景的“Moonshark Moon Pies”徽标,可能与人类徽标设计师竞争。
- 尽管存在局限性,如作者鼻子大小渲染错误、处理多对象或概念时困难、非拉丁文本字体处理不佳、图像编辑不可靠、处理密集图表或技术图表效果不佳等,但多模态图像生成器开启了完全可塑媒体现实的早期阶段,带来潜在好处、伦理问题和滥用风险。
- OpenAI 允许 4o IG 生成成人公共人物图像并设置保障措施,同时阻止违反政策的内容请求,但模型部分内容来自大规模互联网抓取,可能引发版权问题和法律诉讼。
- GPT-4o 的图像生成模型进一步侵蚀对远程生成媒体的信任,OpenAI 虽在生成图像中加入 C2PA 元数据,但在欺骗性社交媒体帖子中可能作用不大,仍需媒体素养技能来判断信息真伪。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。