这是一篇关于扩散模型(如 Stable Diffusion)的理论及应用的笔记,包含生成模型、DDPM、进展、超越图像等方面内容:
- 生成模型:基本问题是从未知分布样本生成新样本,生成对抗网络(GANs)将其视为游戏,但训练困难且易出现模式坍塌;归一化流(normalizing flows)是更明确的方法,可将样本映射到已知分布再逆映射得到目标分布,OpenAI 的 Glow 用其生成逼真人脸图像。
DDPM(去噪扩散概率模型):
- 无噪和去噪过程:通过在正向扩散过程中逐步向输入图像混入噪声,将其映射到单位正态分布,反向过程可通过贝叶斯规则得到近似高斯分布,用于学习去噪分布。
- 学习去噪:通过最小化 KL 散度来学习去噪分布,将均值预测问题转化为噪声预测问题,最终得到简单的损失函数用于训练。
- 采样:通过预测噪声并逐步去噪来从图像分布中采样,训练循环代码展示了训练过程。
- 总结与示例:总结了 DDPM 的学习过程,并通过训练 2D 数据集的示例展示了不同参数调整对结果的影响。
进展:
- 更快的生成:开发了多种加速生成的技术,如基于得分匹配的更快采样器,利用微分方程和 ODE 求解器实现更快采样;渐进蒸馏可加快预训练模型的采样速度,同时结合对抗蒸馏可缓解模糊问题。
- 条件生成:通过训练带有条件信息的扩散模型实现条件生成,如类别条件生成、无分类器指导的生成、图像条件生成(图像到图像、图像修复、文本到图像)等,ControlNet 是一种有效的图像条件生成方法。
- 数据:讨论了生成模型训练所用数据,如 Dall-E、Stable Diffusion 等模型的训练数据来源,包括 LAION 等数据集,同时提到了数据 poisoning 攻击等数据相关问题。
- 更高分辨率:早期方法如级联扩散,Stable Diffusion 采用潜在扩散方法,通过在自动编码器的潜在空间中进行扩散生成高分辨率图像,单模型分辨率的进展涉及多种训练技巧。
超越图像:
- 音频、视频和 3D:Riffusion 可生成音乐,OpenAI 的 Sora 和 Google 的 Veo 能生成视频,DreamFusion 和 Stable Video 3D 利用 2D 扩散模型进行 3D 相关任务,但仍依赖 3D 重建算法。
- 生命科学:扩散模型在医学和生物学中有多种应用,如医学图像重建、蛋白质结构预测等。
- 机器人:扩散模型是先进的策略生成模型,可通过人类演示学习任务,处理多模态动作分布,适用于高维动作空间,训练稳定性好。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。