OpenAI 在 GPT-4o 中发布了改进的图像生成

发布于 2025-04-01

主要观点：OpenAI 发布具有原生图像生成能力的 GPT - 4o 新版本，可修改上传图像或根据提示创建新图像，在精炼图像时具有多轮一致性且改进了图像中文本生成。
关键信息：

CEO 山姆·奥特曼在近期直播中宣布发布。
新模型训练时结合图像和文本数据，包括“激进的后训练”，但未公布技术细节和基准性能。
生成图像含 C2PA 标签表明由 AI 生成，已建内部工具判断图像是否由其模型生成，会阻止违反内容政策的图像生成。
更新系统卡描述潜在风险及缓解措施，包括大量红队演练，会拒绝某些类型的图像生成请求但对公共人物图像生成政策有改变。
重要细节：
新模型使用自回归生成方法，与 DALL - E 和 Stable Diffusion 使用的扩散方法不同。
可生成含多达 10 - 20 个不同物体的图像，但可能难以准确渲染更多。
用户在 Hacker News 上评论生成图像的质量，尤其提及正确渲染图像中文本的能力，同时指出模型在渲染非拉丁字符语言时存在困难，可能产生不准确或虚构的文本。

阅读 77