主要观点:Scaled Dot Product Attention(SDPA)是多数现代深度学习应用的骨干,但在低资源环境下其内存和计算需求过高,本文提出三种注意力变体以提高其效率且不牺牲通用性,在一系列标准 NLP 和视觉任务上进行评估,所提模型比标准 SDPA 更轻且参数减少 25%-50%,部分模型性能提升可达 10%并提高速度。
关键信息:
- 涉及领域:自然语言处理到视觉。
- 改进方式:移除连续线性变换或添加新的变换。
- 提交历史:从 SeyedPeyman Hosseini 提交,有 v1、v2、v3 版本,各版本时间和大小不同。
重要细节: - 学科分类:Machine Learning(cs.LG)、Artificial Intelligence(cs.AI)、Computation and Language(cs.CL)、Computer Vision and Pattern Recognition(cs.CV),MSC 类包括 68T07 等,ACM 类包括 I.2.6 等。
- 引用方式:[arXiv:2403.01643](cs.LG)或[arXiv:2403.01643v3](cs.LG),以及[https://doi.org/10.48550/ArXi...](通过 DataCite 的 arXiv 发布 DOI)。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。