OpenAI 的新 AI 图像生成器功能强大且注定会引发

OpenAI's DALL-E 2 and 4o IG：
- 2022 年春季 DALL-E 2 到来标志 AI 转折点，文本到图像生成对部分用户开放，引发了数字探索者社区的关注与争议（https://arstechnica.com/infor...）。
- DALL-E 2 存在文本渲染不一致、难以处理复杂提示等局限性，OpenAI 在后续迭代中进行改进，如 2023 年的 DALL-E 3（https://arstechnica.com/infor...）。
- 2025 年周二，OpenAI 宣布将新的多模态图像生成能力直接集成到 GPT-4o 语言模型中，成为 ChatGPT 界面内的默认图像生成器，即“4o Image Generation”（4o IG），其能更准确地遵循提示，响应聊天上下文进行图像修改（https://openai.com/index/intr...）。
4o IG 的特点：
- 代表向“原生多模态图像生成”转变，大型语言模型直接将图像数据作为令牌处理和输出，图像令牌和文本令牌共享同一神经网络，带来新的图像创建和修改灵活性（https://arstechnica.com/infor...）。
- 虽 2024 年 5 月 GPT-4o 推出时已具备多模态图像生成能力，但 OpenAI 花了 10 多个月才将其交付给用户，可能是受谷歌多模态 LLM 图像生成器 Gemini 2.0 Flash 的发布刺激（https://arstechnica.com/ai/20...）。
- 新 4o IG 过程在合理分辨率和细节水平下极其缓慢，每张图像需 30 秒到 1 分钟或更长时间。
4o IG 的功能：
- 可通过纯自回归方法生成图像，具有很大灵活性，但计算密集，模型逐个生成图像令牌并依次构建。
- 能超越早期 AI 图像生成器生成的“超现实、惊人场景”，向创建用于交流的“主力图像”转变，如改进图像内的文本渲染，用户可通过对话细化图像并保持视觉一致性，分析上传图像并将其细节纳入新生成中，提供更强的照片真实感等（https://openai.com/blog/intro...）。
- 示例包括创建图表、信息图、社交媒体图形、徽标、指令海报、名片、带有透明背景的自定义库存照片、编辑用户照片或可视化聊天中先前讨论的概念等，但未提及受影响的艺术家和图形设计师。
4o IG 的应用与影响：
- 在 X 上，AI 社区发现 4o IG 能将某人的脸插入现有图像、创建假截图、将 meme 照片转换为 Studio Ghibli、South Park、felt、Muppets、Rick and Morty、Family Guy等风格。
- 在 ChatGPT 界面中，4o IG 具有对话性，可随时间建议更改，如给作者的像素头像添加身体、将照片转换为 EGA 像素风格、生成包含大量物体的图像、修改图像中的文本、生成关于野蛮人的诗歌并将其转化为图像等，但存在一些明显错误，如重复字母。
- 还能创建带有透明背景的“Moonshark Moon Pies”徽标，可能与人类徽标设计师竞争。
- 尽管存在局限性，如作者鼻子大小渲染错误、处理多对象或概念时困难、非拉丁文本字体处理不佳、图像编辑不可靠、处理密集图表或技术图表效果不佳等，但多模态图像生成器开启了完全可塑媒体现实的早期阶段，带来潜在好处、伦理问题和滥用风险。
- OpenAI 允许 4o IG 生成成人公共人物图像并设置保障措施，同时阻止违反政策的内容请求，但模型部分内容来自大规模互联网抓取，可能引发版权问题和法律诉讼。
- GPT-4o 的图像生成模型进一步侵蚀对远程生成媒体的信任，OpenAI 虽在生成图像中加入 C2PA 元数据，但在欺骗性社交媒体帖子中可能作用不大，仍需媒体素养技能来判断信息真伪。