针对低资源设置的具有成本效益的注意力机制：线性变换的必要性与充分性

发布于 7 月 24 日

主要观点：Scaled Dot Product Attention（SDPA）是多数现代深度学习应用的骨干，但在低资源环境下其内存和计算需求过高，本文提出三种注意力变体以提高其效率且不牺牲通用性，在一系列标准 NLP 和视觉任务上进行评估，所提模型比标准 SDPA 更轻且参数减少 25%-50%，部分模型性能提升可达 10%并提高速度。
关键信息：

涉及领域：自然语言处理到视觉。
改进方式：移除连续线性变换或添加新的变换。
提交历史：从 SeyedPeyman Hosseini 提交，有 v1、v2、v3 版本，各版本时间和大小不同。
重要细节：
学科分类：Machine Learning（cs.LG）、Artificial Intelligence（cs.AI）、Computation and Language（cs.CL）、Computer Vision and Pattern Recognition（cs.CV），MSC 类包括 68T07 等，ACM 类包括 I.2.6 等。
引用方式：[arXiv:2403.01643]（cs.LG）或[arXiv:2403.01643v3]（cs.LG），以及[https://doi.org/10.48550/ArXi...]（通过 DataCite 的 arXiv 发布 DOI）。

阅读 12