主要观点:稀疏注意力是扩展 Transformer 语言模型长上下文能力的有前途策略,但其可行性、效率 - 准确性权衡及系统缩放研究尚待探索。
关键信息:通过对不同模型规模、序列长度和稀疏度水平的无训练稀疏注意力方法在多种长序列任务上进行比较实验,得出一系列关键发现,包括 isoFLOPS 分析表明长序列时大且高度稀疏模型更优、解码时可保证精度的稀疏度水平高于预填充且与模型大小相关、不同任务和阶段无最佳策略需不同稀疏化或预算适应性、中等稀疏度会导致至少一项任务性能显著下降等,还引入并验证了针对稀疏注意力的新缩放定律。
重要细节:实验在包括依赖自然语言且可控易评估的新任务上进行,提交历史显示由 Piotr Nawrot 于 2025 年 4 月 24 日 17:39:25 UTC 提交 v1 版本,大小 308KB,学科涉及计算与语言(cs.CL)、机器学习(cs.LG),引用为arXiv:2504.17768 [cs.CL](此版本为arXiv:2504.17768v1 [cs.CL]),以及https://doi.org/10.48550/arXiv.2504.17768通过 DataCite 发布的 arXiv DOI。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。