主要观点:Qwen 团队近期开源图像基础模型 Qwen-Image,支持文本到图像(T2I)生成和文本图像到图像(TI2I)编辑任务,在多种基准测试中表现出色。
关键信息:
- 使用[Qwen2.5-VL]进行文本输入,变分自编码器(VAE)进行图像输入,多模态扩散 Transformer(MMDiT)进行图像生成。
- 在 T2I 和 TI2I 基准测试中取得最高总分,图像理解任务虽不如专门训练模型但接近其性能。
- 创建 AI Arena 比较生成图像对的评分。
- 训练数据集通过收集和标注数十亿图像文本对,经多策略预训练和两阶段后训练。
重要细节: - 图像来自自然、设计、人物和合成数据四类,自然图像约占 55%,设计图像约占 27%且含丰富文本元素。
- 预训练策略包括图像缩放和引入不同类型图像。
- 后训练分监督微调(SFT)和强化学习(RL)两步。
- Hacker News 用户称赞其性能,与 gpt-image-1 比较,早期结果显示 gpt-image-1 锐度和清晰度稍好。
- Qwen-Image 代码在 GitHub 上,模型文件可从 Huggingface 下载。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。