Meta开源MEGALODON LLM,助力高效长序列建模

MEGALODON:开源大语言模型

来自Meta、南加州大学、卡内基梅隆大学和加州大学圣地亚哥分校的研究人员最近开源了MEGALODON,这是一个具有无限上下文长度的大语言模型(LLM)。MEGALODON具有线性计算复杂度,并在多个基准测试中优于相同规模的Llama 2模型。

模型设计与创新

MEGALODON旨在解决大多数LLM所依赖的Transformer神经架构的若干缺陷。与标准的多头注意力机制不同,MEGALODON采用了分块注意力机制。研究团队还在训练过程中引入了基于序列的并行性,从而提高了长上下文训练的可扩展性。

在标准的LLM基准测试(如WinoGrande和MMLU)中,MEGALODON在相同参数数量、训练数据和计算预算的情况下,表现优于Llama 2模型。研究人员指出:

MEGALODON在训练困惑度和下游基准测试中均取得了显著改进。重要的是,长上下文建模的实验结果证明了MEGALODON能够处理无限长度的序列。

Transformer架构的局限性

尽管Transformer架构已成为大多数生成式AI模型的标准,但它仍存在一些缺点。特别是,其自注意力机制在计算和存储上具有二次复杂度,这限制了模型的输入上下文长度。近年来,研究人员开发了几种替代方案,包括结构化状态空间模型(SSMs),如Mamba,其复杂度与上下文长度呈线性关系。

MEGALODON的改进

MEGALODON基于研究团队之前的模型MEGA(具有门控注意力的指数移动平均),并引入了多项新特性。MEGALODON使用复杂指数移动平均(CEMA),数学上使得MEGALODON等效于“具有对角状态矩阵的简化状态空间模型”。

训练与性能

研究团队使用与Llama2-7B相同的2万亿令牌数据集和训练超参数,训练了一个70亿参数的MEGALODON-7B模型。他们发现MEGALODON-7B在计算效率上更高。当Llama模型的上下文长度扩展到32k时,MEGALODON-7B的速度显著更快。

除了在标准LLM基准测试中评估MEGALODON-7B,研究人员还在SCROLLS长上下文问答基准测试中进行了测试,并将其结果与多个基线模型(包括上下文长度为32k的修改版Llama 2模型)进行了比较。MEGALODON在NarrativeQA子任务中优于所有基线模型,并在所有任务中取得了与Llama 2“竞争”的结果。

社区讨论

在Hacker News上关于MEGALODON的讨论中,有用户询问该模型在召回任务中的表现,因为其他非Transformer模型在这些任务上往往表现不佳。另一位用户回复道:

就这一点而言,RWKV的网站提到它在召回任务上表现不佳,但对于大多数任务,你可以在内容之前提问,它就能很好地处理任务。

开源代码

MEGALODON的代码已在GitHub上开源,供研究人员和开发者使用和进一步研究。

阅读 26
0 条评论