斯坦福研究人员 Mason Kamb 和 Surya Ganguli 在最近的一篇论文中提出了一种可能是扩散模型创造力基础的机制。他们开发的数学模型表明,这种创造力是这些模型利用去噪过程生成图像的确定性结果。
大致来说,扩散模型被训练从各向同性高斯噪声分布中“揭示”图像,这是从有限样本图像集的训练过程的结果。这个过程包括通过学习指向概率增加梯度方向的评分函数来逐渐去除高斯噪声。
如果网络能精确学习这个理想评分函数,那么它们将实现前向过程的完美逆转。这反过来将只能将高斯噪声转换为记忆的训练示例。
这意味着,要生成远离训练集的新图像,模型必须未能学习理想评分(IS)函数。解释这种情况发生的一种方式是假设存在归纳偏差,这可能更准确地解释扩散模型在创造性生成新样本时实际在做什么。
通过分析扩散模型如何使用 CNN 估计评分函数,研究人员确定了两种这样的偏差:平移等变性和局部性。平移等变性指的是模型反映输入图像中位移的趋势,即如果输入移动几个像素,生成的图像将反映该位移。另一方面,局部性源于用于学习评分函数的卷积神经网络(CNN),它只考虑输入像素的小邻域而不是整个图像。
基于这些见解,研究人员构建了一个旨在优化用于等变性和局部性的评分函数的数学模型,他们称之为等变局部评分(ELS)机器。
ELS 机器是一组可以计算去噪图像组合的方程,并将其输出与在简化模型上训练的 ResNets 和 UNets 等扩散模型的输出进行比较。他们发现“CNN 输出和 ELS 机器输出之间有显著且一致的定量一致性”,根据所考虑的实际扩散模型和数据集,准确率约为 90%或更高。
据我们所知,这是首次有分析理论以这种精度解释训练有素的基于深度神经网络的生成模型的创造性输出。重要的是,(E)LS 机器比 IS 机器更好地解释了所有训练输出。
根据 Ganguli 的说法,他们的研究解释了扩散模型如何通过在新输出的不同位置“混合和匹配不同的局部训练集图像补丁”来创建新图像,从而产生局部补丁镶嵌的创造力模型。该理论还帮助解释了为什么扩散模型会出错,例如生成多余的手指或肢体,这是由于过度局部性。
这个结果虽然很有说服力,但最初排除了包含高度非局部自注意力(SA)层的扩散模型,这些层违反了研究人员假设中的局部性假设。为了解决这个问题,作者使用他们的 ELS 机器预测在 CIFAR-10 上预训练的公开可用 UNet+SA 模型的输出,发现它仍然比基线 IS 机器实现了显著更高的准确性。
根据研究人员的说法,他们的结果表明,局部性和等变性足以解释仅卷积扩散模型的创造力,并可能为更复杂的扩散模型的进一步研究奠定基础。
研究人员还分享了他们在研究中用于训练扩散模型的代码。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。