Meta MobileLLM 推进适用于设备本地用例的LLM设计

Meta研究人员的目标与MobileLLM

Meta研究人员的目标是通过MobileLLM展示,对于较小的模型,质量并不直接取决于其参数的数十亿数量,而是精心设计架构的结果。为了证明这一点,他们结合了深层和薄层架构,嵌入共享和分组查询注意力机制,构建了4个模型,分别具有125M、350M、600M和1B参数,这些模型能够提高准确性,超越之前的最先进模型。

偏离“缩放定律”

MobileLLM偏离了普遍接受的“缩放定律”,该定律认为性能提升与参数数量增加有关。Meta研究人员发现,对于具有有限模型容量的小型模型,深度比宽度对性能提升更为关键。

嵌入共享技术

嵌入共享是一种技术,包括在输入和输出嵌入层之间重用相同的权重,这减少了总权重数量并使模型更小。对于较大的模型,这种技术效果较差,因为输入和输出嵌入只占总参数的一小部分。相反,对于125M参数模型,嵌入层占总参数的20%以上。

立即块级权重共享

另一种技术是立即块级权重共享,其中权重在相邻块之间复制。这可以减少延迟而不显著增加模型大小,对于内存移动是确定模型延迟的主要因素的场景尤其相关。

MobileLLM的实验结果

Meta研究人员进行了一系列实验,将MobileLLM与之前的最先进子十亿参数模型在多项任务上进行比较,包括零样本常识推理、问答和阅读理解。例如,在零样本推理中,MobileLLM-LS-125M实现了与大多数之前350M模型相当甚至更高的结果。在350M模型大小类别中,MobileLLM以相当或更小的模型大小超越了之前的最先进模型超过4点。

移动设备上的大语言模型需求

Meta研究人员表示,移动设备上大语言模型的需求日益增长,以减少云成本和延迟。他们还强调了更大LLM的能源消耗和二氧化碳排放的增加,并提倡缩小LLM以使其更环保。转向设备模型可能是这些问题的答案,同时通过减少延迟来提高模型性能。

MobileLLM的可用性

MobileLLM可在Hugging Face上获得。

阅读 40
0 条评论