主要观点:Transformer 的二次复杂度和弱长度外推限制了其处理长序列的能力,虽有线性注意力和状态空间模型等次二次解决方案,但在预训练效率和下游任务准确性方面逊于 Transformer。介绍了 Megalodon 这一用于高效序列建模且具有无限上下文长度的神经架构,它继承 Mega 的架构并引入多个技术组件以提升能力和稳定性。
关键信息:
- 引入复杂指数移动平均(CEMA)、时间步归一化层、归一化注意力机制和两跳残差预归一化配置等技术组件。
- 在与 Llama2 的对照比较中,70 亿参数规模下 Megalodon 比 Transformer 效率高,训练损失达 1.70,介于 Llama2 - 7B(1.75)和 13B(1.67)之间。
重要细节: - 提交历史:Xuezhe Ma 于 2024 年 4 月 12 日提交 v1 版本,4 月 16 日提交 v2 版本,v1 版本 568KB,v2 版本 572KB。
- 包含 9 页、6 幅图和 8 个表。
- 涉及学科:机器学习(cs.LG)、计算与语言(cs.CL)。
- 引用:arXiv:2404.08801 [cs.LG](或此版本的arXiv:2404.08801v2 [cs.LG]),https://doi.org/10.48550/ArXiv.2404.08801,通过 DataCite 发布的 arXiv 分配的 DOI。
- 代码:this https URL。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。