苹果研究人员详细介绍结合不同LLM以实现最先进性能的方法

多模态大语言模型(MLLMs)的设计原则与关键发现

最近,许多大型语言模型(LLMs)相继发布,包括闭源和开源版本,进一步推动了多模态大语言模型(MLLMs)的发展。然而,这些模型的创建过程中所采用的设计选择鲜有公开。苹果研究人员通过总结原则和经验,为设计最先进的多模态大语言模型提供了指导。

多模态大语言模型的构建

多模态大语言模型通过将大型语言模型与视觉基础模型结合而成,旨在处理图像和文本输入,生成优于基础模型的文本输出。苹果研究人员认为,MLLMs正在成为基础模型的下一个前沿领域。

设计过程中的关键决策

苹果研究人员重点关注了创建MLLMs的两个方面:模型架构的决策和预训练数据的选择。

1. 模型架构

研究发现,图像分辨率、视觉编码器的损失函数和容量,以及视觉编码器的预训练数据是三个最重要的设计因素。相比之下,如何将视觉数据输入到LLM中的架构决策似乎对最终模型性能影响不大。

2. 预训练数据

研究人员分析了三种不同的预训练方法:图像-描述对数据、交错图像-文本数据和纯文本数据。这些方法分别在少样本学习、零样本学习和纯文本环境中进行了测试。

  • 零样本学习:模型能够在没有见过相关示例的情况下识别和分类对象或概念。
  • 少样本学习:模型能够基于少量标注示例做出准确预测。

研究结果表明,交错图像-文本数据和纯文本数据对少样本和纯文本模型的性能至关重要,而图像-描述对数据则对零样本模型的表现更为关键。

MM1模型家族

为了验证研究结果,研究人员构建了一系列名为MM1的模型,这些模型在性能上超越了当前最先进的模型,如Emu2、Flamingo和IDEFICS。基准测试包括图像描述(模型为图像生成描述性文本)和视觉问答(模型回答关于图像的问题并帮助理解其内容)。

MM1模型展现出以下优势:

  • 支持上下文预测、多图像推理和链式思维推理。
  • 经过指令微调后,具备强大的少样本学习能力。

研究结果与未来展望

研究人员在构建MM1模型时,探索了不同的图像编码器及其与LLM的连接方式、数据类型及其权重设置,以及训练方法(包括超参数调整)。他们的研究结果为社区提供了重要见解,例如图像分辨率、模型大小和训练数据组成的重要性,为未来在多种架构和数据策略上构建更强大的模型奠定了坚实基础。

阅读 21
0 条评论