苹果研究人员详细介绍结合不同LLM以实现最先进性能的方法

最近，许多大型语言模型（LLMs）相继发布，包括闭源和开源版本，进一步推动了多模态大语言模型（MLLMs）的发展。然而，这些模型的创建过程中所采用的设计选择鲜有公开。苹果研究人员通过总结原则和经验，为设计最先进的多模态大语言模型提供了指导。

多模态大语言模型通过将大型语言模型与视觉基础模型结合而成，旨在处理图像和文本输入，生成优于基础模型的文本输出。苹果研究人员认为，MLLMs正在成为基础模型的下一个前沿领域。

苹果研究人员重点关注了创建MLLMs的两个方面：模型架构的决策和预训练数据的选择。

研究发现，图像分辨率、视觉编码器的损失函数和容量，以及视觉编码器的预训练数据是三个最重要的设计因素。相比之下，如何将视觉数据输入到LLM中的架构决策似乎对最终模型性能影响不大。

研究人员分析了三种不同的预训练方法：图像-描述对数据、交错图像-文本数据和纯文本数据。这些方法分别在少样本学习、零样本学习和纯文本环境中进行了测试。

研究结果表明，交错图像-文本数据和纯文本数据对少样本和纯文本模型的性能至关重要，而图像-描述对数据则对零样本模型的表现更为关键。

为了验证研究结果，研究人员构建了一系列名为MM1的模型，这些模型在性能上超越了当前最先进的模型，如Emu2、Flamingo和IDEFICS。基准测试包括图像描述（模型为图像生成描述性文本）和视觉问答（模型回答关于图像的问题并帮助理解其内容）。

MM1模型展现出以下优势：

研究人员在构建MM1模型时，探索了不同的图像编码器及其与LLM的连接方式、数据类型及其权重设置，以及训练方法（包括超参数调整）。他们的研究结果为社区提供了重要见解，例如图像分辨率、模型大小和训练数据组成的重要性，为未来在多种架构和数据策略上构建更强大的模型奠定了坚实基础。