没有大象：图像生成方面的突破

发布于 2025-04-05

主要观点：过去两周谷歌和 OpenAI 推出多模态图像生成能力，此前大语言模型生成图像是通过发送文本提示给单独图像生成工具，效果不佳，多模态图像生成让 AI 直接控制图像制作，效果更 impressive。以 GPT-4o 为例，展示其在创建信息图、图像编辑等方面的能力，从最初的基础到不断改进，虽不完美但进步迅速，且能与上传图像结合进行操作，如将手绘图转化为广告等，还发现了多种新用途，但也引发了关于艺术使用 AI 的复杂问题，如风格转移的版权等，多模态系统重塑视觉创作 landscape，需考虑创意所有权等问题。
关键信息：谷歌和 OpenAI 推出多模态图像生成；大语言模型生成图像的方式及弊端；多模态图像生成的优势及操作方式；GPT-4o 在不同图像任务中的表现及改进；新用途的发现及相关问题；多模态系统对视觉创作的影响。
重要细节：如在创建信息图时对图形外观、颜色等的修改及出现的拼写错误；图像编辑中对物品的替换及细节问题；不同场景下利用多模态系统的具体操作和效果；关于艺术使用 AI 的讨论及潜在风险等。

阅读 24