Qwen 团队开源了最先进的图像模型 Qwen-Image

主要观点:Qwen 团队近期开源图像基础模型 Qwen-Image,支持文本到图像(T2I)生成和文本图像到图像(TI2I)编辑任务,在多种基准测试中表现出色。
关键信息:

  • 使用[Qwen2.5-VL]进行文本输入,变分自编码器(VAE)进行图像输入,多模态扩散 Transformer(MMDiT)进行图像生成。
  • 在 T2I 和 TI2I 基准测试中取得最高总分,图像理解任务虽不如专门训练模型但接近其性能。
  • 创建 AI Arena 比较生成图像对的评分。
  • 训练数据集通过收集和标注数十亿图像文本对,经多策略预训练和两阶段后训练。
    重要细节:
  • 图像来自自然、设计、人物和合成数据四类,自然图像约占 55%,设计图像约占 27%且含丰富文本元素。
  • 预训练策略包括图像缩放和引入不同类型图像。
  • 后训练分监督微调(SFT)和强化学习(RL)两步。
  • Hacker News 用户称赞其性能,与 gpt-image-1 比较,早期结果显示 gpt-image-1 锐度和清晰度稍好。
  • Qwen-Image 代码在 GitHub 上,模型文件可从 Huggingface 下载。
阅读 19
0 条评论