DAAM：首次利用视觉语言学解释大型扩散模型

出品人：Towhee 技术团队张晨、顾梦佳

大规模扩散神经网络代表了文本到图像生成的一个重要里程碑，但它们仍然缺乏可解释性分析。DAAM 对最近开源的模型 Stable Diffusion 进行了文本-图像归因分析。为了生成像素级属性图，DAAM 在去噪子网络中放大和聚合交叉注意力字像素分数。通过归因分析，DAAM 主要研究了如何将语法关系转化为视觉交互，并关注了扩散模型中的视觉语言现象。通过定量语义分割任务和定性广义归因研究，证明了归因方法 DAAM 的正确性。DAAM 是第一个从视觉语言学的角度解释大型扩散模型，这使得未来的研究成为可能。

The original synthesized image and three DAAM maps for “monkey,” “hat,” and “walking,” from the prompt, “monkey with hat walking.”

DAAM 在 Stable Diffusion 去噪逆扩散过程中选择了稍微靠后的步骤，进行可解释性研究。常规的归因分析通过梯度进行计算，但在扩散模型中无法进行梯度计算，因此 DAAM 选用词汇和特征图的得分的方式进行分析。通过评估句法关系如何转化为视觉互动，DAAM 发现某些注意力头不恰当地包含了他们的从属。因为，DAAM 得到了特征纠缠的假设，表明同位词是混乱的，而形容词的范围太广了。

相关资料：
代码地址：https://github.com/castorini/...
论文链接：What the DAAM: Interpreting Stable Diffusion Using Cross Attention
更多资料：https://blog.csdn.net/qq_4245...

DAAM：首次利用视觉语言学解释大型扩散模型

Zilliz

引用和评论

成本最高直降50倍! Zilliz Cloud Serverless Beta上线，限时免费，早用早省钱！

科学计算编程涉及到的技术栈简介

manus 的替代品有哪些？使用LLM大模型技术做手机/网页/浏览器自动化操作技术汇总

基于yolov5实现的AI智能盒子框架

vLLM 实战教程汇总，从环境配置到大模型部署，中文文档追踪重磅更新

【机器学习篇】K-Means 算法详解：从理论到实践的全面解析

特征平台综述