针对低资源设置的具有成本效益的注意力机制:线性变换的必要性与充分性

主要观点:Scaled Dot Product Attention(SDPA)是多数现代深度学习应用的骨干,但在低资源环境下其内存和计算需求过高,本文提出三种注意力变体以提高其效率且不牺牲通用性,在一系列标准 NLP 和视觉任务上进行评估,所提模型比标准 SDPA 更轻且参数减少 25%-50%,部分模型性能提升可达 10%并提高速度。
关键信息

  • 涉及领域:自然语言处理到视觉。
  • 改进方式:移除连续线性变换或添加新的变换。
  • 提交历史:从 SeyedPeyman Hosseini 提交,有 v1、v2、v3 版本,各版本时间和大小不同。
    重要细节
  • 学科分类:Machine Learning(cs.LG)、Artificial Intelligence(cs.AI)、Computation and Language(cs.CL)、Computer Vision and Pattern Recognition(cs.CV),MSC 类包括 68T07 等,ACM 类包括 I.2.6 等。
  • 引用方式:[arXiv:2403.01643](cs.LG)或[arXiv:2403.01643v3](cs.LG),以及[https://doi.org/10.48550/ArXi...](通过 DataCite 的 arXiv 发布 DOI)。
阅读 12
0 条评论