Stable Diffusion 3.5 提升文本渲染、图像质量、一致性等

Stability AI 发布 Stable Diffusion 3.5 系列模型

Stability AI 最新发布了其迄今为止最强大的文本生成图像模型 Stable Diffusion 3.5 Large 以及其高效版本 Stable Diffusion 3.5 Large Turbo。这两个模型均采用免费许可模式,支持非商业用途和有限的商业用途。

模型特点

  1. Stable Diffusion 3.5 Large

    • 参数规模:80亿
    • 生成图像分辨率:1百万像素
    • 专注于专业级图像的生成,提供顶级的提示遵从性和图像质量。
  2. Stable Diffusion 3.5 Large Turbo

    • 是 Stable Diffusion 3.5 Large 的精简版本
    • 通过减少生成步骤至仅需4步,显著提升了生成速度。

自定义与优化

  • 自定义性:用户可以根据需求微调模型或构建定制化工作流。
  • 训练支持:可以使用现有的 SD3 训练脚本进行 LoRAs 训练,但需注意量化处理的额外要求。
  • 硬件兼容性:模型优化后可在标准消费级硬件上运行,支持多种输出类型,包括肤色、3D图像、摄影、绘画等。

改进与挑战

  • 改进点:相比前作 Stable Diffusion 3 Medium,3.5 版本在生成图像质量上有所提升,特别是修复了“草地上的女孩”等已知问题。
  • 挑战:尽管有所改进,模型在处理某些基本提示时仍可能出现失败情况。

架构与许可

  • 架构更新:采用了 QK 标准化和双注意力层技术,进一步提升了模型性能。
  • 许可模式:模型采用宽松的许可协议,允许非商业项目免费使用,并允许年收入低于100万美元的创作者用于商业用途,但明确禁止创建竞争性基础模型。

未来计划

  • Stable Diffusion 3.5 Medium:计划于本月晚些时候发布,参数规模为25亿,专为消费级硬件设计,将进一步推动定制模型的开发。

获取与使用

  • 下载与使用:用户可以从 GitHub 下载推理代码,模型本身可在 HuggingFace 获取,并可通过 Replicate、ComfyUI、DeepInfra 等平台或直接使用 Stability AI API 进行使用。

总结:Stable Diffusion 3.5 系列模型在图像生成质量、速度和自定义性方面均有显著提升,同时优化了硬件兼容性,为用户提供了更广泛的应用场景。

阅读 64
0 条评论