Stable Diffusion 3.5 提升文本渲染、图像质量、一致性等 - SegmentFault 思否

Stable Diffusion 3.5 提升文本渲染、图像质量、一致性等

发布于 2024-10-25

Stability AI 发布 Stable Diffusion 3.5 系列模型

Stability AI 最新发布了其迄今为止最强大的文本生成图像模型 Stable Diffusion 3.5 Large 以及其高效版本 Stable Diffusion 3.5 Large Turbo。这两个模型均采用免费许可模式，支持非商业用途和有限的商业用途。

模型特点

Stable Diffusion 3.5 Large：
- 参数规模：80亿
- 生成图像分辨率：1百万像素
- 专注于专业级图像的生成，提供顶级的提示遵从性和图像质量。
Stable Diffusion 3.5 Large Turbo：
- 是 Stable Diffusion 3.5 Large 的精简版本
- 通过减少生成步骤至仅需4步，显著提升了生成速度。

自定义与优化

自定义性：用户可以根据需求微调模型或构建定制化工作流。
训练支持：可以使用现有的 SD3 训练脚本进行 LoRAs 训练，但需注意量化处理的额外要求。
硬件兼容性：模型优化后可在标准消费级硬件上运行，支持多种输出类型，包括肤色、3D图像、摄影、绘画等。

改进与挑战

改进点：相比前作 Stable Diffusion 3 Medium，3.5 版本在生成图像质量上有所提升，特别是修复了“草地上的女孩”等已知问题。
挑战：尽管有所改进，模型在处理某些基本提示时仍可能出现失败情况。

架构与许可

架构更新：采用了 QK 标准化和双注意力层技术，进一步提升了模型性能。
许可模式：模型采用宽松的许可协议，允许非商业项目免费使用，并允许年收入低于100万美元的创作者用于商业用途，但明确禁止创建竞争性基础模型。

未来计划

Stable Diffusion 3.5 Medium：计划于本月晚些时候发布，参数规模为25亿，专为消费级硬件设计，将进一步推动定制模型的开发。

获取与使用

下载与使用：用户可以从 GitHub 下载推理代码，模型本身可在 HuggingFace 获取，并可通过 Replicate、ComfyUI、DeepInfra 等平台或直接使用 Stability AI API 进行使用。

总结：Stable Diffusion 3.5 系列模型在图像生成质量、速度和自定义性方面均有显著提升，同时优化了硬件兼容性，为用户提供了更广泛的应用场景。

Stable Diffusion 3.5 Improves Text Rendering, Image Quality, Consistency, and More

https://www.infoq.com/news/2024/10/stable-diffusion-3-5-large/

阅读 134

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。