AIMv2：多模态自回归预训练的视觉新突破

📖阅读时长：19分钟

🕙发布时间：2025-02-17

近日热文：全网最全的神经网络数学原理（代码和公式）直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
 知乎LLM专栏
 知乎【柏企】
公众号【柏企科技说】【柏企阅文】

导言

视觉模型在人工智能领域的地位愈发重要，从图像识别、目标检测到多模态理解，其应用场景不断拓展。在大规模数据集上进行预训练，能助力模型学习丰富的视觉特征，这些特征在下游任务中也能发挥出色效果。近期，Fini等人发表的论文中介绍了AIMv2，这是一系列视觉编码器，通过多模态自回归预训练方法，在各类基准测试里都展现出卓越性能。接下来，就让我们深入探究AIMv2的预训练方法、架构、数据集以及训练后的优化策略。

多模态自回归预训练

传统视觉模型大多聚焦于视觉数据，这使得它们在理解和消除视觉与语言之间的差异方面能力受限。AIMv2另辟蹊径，在全新的多模态自回归预训练框架中同时利用图像和文本数据。其核心创新点在于，将视觉元素和文本元素视作一个统一的序列，如此一来，AIMv2在预训练阶段就能学习到丰富且相互关联的特征表示。

这一过程具体是这样操作的：先把图像分割成互不重叠的小块（Patch），并对相应的图像描述进行标记化处理。随后，将这些Patch和文本标记连接成一个多模态序列。视觉编码器负责处理图像Patch，而多模态解码器则依据序列中的前文内容，预测下一个元素，这个元素既可能是图像Patch，也可能是文本标记。通过这种设置，模型得以学习视觉数据和文本数据之间的关系，进而生成融合两种模态信息、具有丰富上下文的特征表示。

通过同时从图像和文本两种模态中学习，AIMv2能够充分利用大规模数据集中海量的图像 - 文本对。这种预训练策略让它可以捕捉到多样的视觉概念及其对应的文本描述，成为功能强大、应用广泛的视觉编码器。最终训练出的模型在不同任务间通用性良好，无论是视觉专项任务还是多模态基准测试，都有优异表现。

AIMv2的创新架构

AIMv2的架构由视觉编码器和多模态解码器构成，二者协同工作，实现对图像Patch和文本标记的处理以及自回归预测。视觉编码器基于视觉Transformer（ViT）架构搭建，该架构在众多计算机视觉任务中都成绩斐然。论文作者们选用了从ViT-L到ViT-3B不同规模的编码器，研究模型扩展特性，以此评估模型容量对性能的影响。

在标准ViT架构的基础上，AIMv2做出了一项重要改进——引入前缀注意力机制（prefix attention）。在预训练过程中，自注意力机制不再关注所有图像Patch，而是被限定在随机采样的Patch前缀部分。这项技术有助于模型从局部图像中提取关键的上下文信息，提升自回归预测的准确性。

多模态解码器以图像Patch特征和文本标记嵌入的连接序列作为输入。借助因果自注意力机制（causal self-attention），解码器根据前文内容预测序列中的下一个元素。其设计巧妙之处在于，无需针对不同模态进行调整，就能无缝处理视觉和文本数据。在解码器的输出端，分别设置了线性层，用于独立生成对图像Patch和文本标记的预测结果。

AIMv2的预训练数据集

AIMv2的预训练基于规模庞大的数据集，其中包含超过120亿个图像 - 文本对，这些数据源自公共数据集与私有数据集。公共数据集如DFN-2B和COYO，为网络图像提供了替代文本注释。为进一步优化数据集，作者团队引入了专有数据集“高质量图像 - 文本对（HQITP）”，该数据集提供了更为精挑细选且详细的注释内容。

除了替代文本注释，预训练的图像字幕模型生成的合成字幕也被用于丰富文本描述。这些合成字幕基于图像视觉内容生成，为模型学习提供了丰富多样且贴合上下文的文本信息，有效扩大了文本描述的覆盖范围，确保数据集涵盖了广泛的概念和关系。

训练后策略

尽管AIMv2在初始预训练阶段已展现出强大性能，但研究者们仍探索了多种训练后策略，旨在进一步提升模型在下游任务中的表现，使其能更好地适应实际应用需求，发挥更大效能。

高分辨率适配是一项关键策略。在目标检测和图像分割等任务中，对精细视觉细节有着较高要求，而AIMv2在预训练时处理图像的固定分辨率为224像素。为提升其在高分辨率输入任务中的性能，研究人员使用分辨率为336像素和448像素的图像对模型进行微调，并额外使用了20亿个图像 - 文本对。经过这一阶段的训练，AIMv2能够更出色地处理细节特征，在涉及高分辨率图像的下游任务中，预测精度也得到显著提高。

原始分辨率微调同样不容忽视，它赋予了AIMv2处理任意分辨率和宽高比图像的能力。在这一训练阶段，模型会在不同尺寸和宽高比的图像上进行训练，如此一来，无需对架构进行修改，AIMv2就能处理各种尺寸的图像Patch。这种灵活性使得AIMv2适用于卫星图像分析、医学扫描图像处理等多种实际场景，这些场景中的图像往往具有不同分辨率和宽高比。而且，由于无需对图像进行缩放或预处理，原始分辨率微调减少了计算负担，能够实现更快速的部署应用。

最后一种策略是将AIMv2与大型语言模型（LLMs）集成，从而支持更高级的多模态应用。AIMv2基于视觉的特征表示与LLMs的语言理解能力相结合，为需要对图像和文本进行联合推理的任务提供了有力支持。以视觉问答（VQA）任务为例，AIMv2负责提取视觉特征，并将其与问题一同作为输入传递给LLM，二者结合形成的系统能够生成准确且贴合上下文的答案，充分展现了AIMv2作为多模态任务强大视觉基础的潜力。

这种集成方式得益于AIMv2的自回归预训练方法，该方法为图像和文本构建了共享的特征表示空间，实现了视觉编码器与语言模型之间的无缝协作，使得组合系统在视觉对话、图像字幕生成和多媒体检索等任务中表现出色。

基准测试中的性能

AIMv2在各类视觉和多模态基准测试中都取得了优异成绩，有力证明了其多模态自回归预训练方法的有效性。

在ImageNet-1k数据集测试中，AIMv2最大的模型变体AIMv2–3B/448px达到了89.5%的前1准确率，超越了DINOv2和SigLIP等知名模型。在COCO和LVIS等目标检测任务里，AIMv2对小目标和稀有类别的检测效果尤为突出，充分展示了其捕捉精细视觉细节的能力。

AIMv2在多模态任务方面同样表现卓越，例如在引用表达式理解和视觉问答任务中成绩优异。在RefCOCO和RefCOCO+等基准测试中，AIMv2能够精准地将自然语言描述与视觉区域对应起来，取得领先成果。在VQAv2和OKVQA等视觉问答任务中，AIMv2与大型语言模型相结合，性能超越了许多常用的视觉编码器，再次凸显了其多模态表示的强大实力。

缩放特性和潜力

AIMv2展现出了令人惊叹的扩展特性，随着模型容量的增加和图像分辨率的提升，其性能也在稳步提高。研究人员对参数规模从3亿到30亿不等的AIMv2变体进行了测试，结果显示，随着模型规模的增大，在各项基准测试中的准确率都有显著提升。例如，在ImageNet-1k数据集上，AIMv2-L在224px分辨率下的前1准确率为86.6%，而AIMv2-3B则提升至88.5%。当分辨率提高到448px时，AIMv2–3B/448px的前1准确率更是达到了89.5%。

这些实验结果充分表明AIMv2具有良好的可扩展性，意味着未来更大的模型规模和更高的分辨率有望带来更卓越的性能表现。更大的模型能够学习到更为复杂的模式，更高的分辨率则有助于提取更精细的特征。

结论

AIMv2相关论文提出了一种全新的视觉编码器预训练方法——多模态自回归建模。通过联合预测图像Patch和文本标记，AIMv2学习到了通用性强的特征表示，在众多视觉和多模态任务中都有出色表现。其优异的性能、良好的可扩展性以及与大型语言模型的兼容性，无疑是视觉表示学习领域的一项重大进展。

参考资料：
Fini, E., Shukor, M., Li, X., Dufter, P., Klein, M., Haldimann, D., Aitharaju, S., Turrisi da Costa, V. G., Béthune, L., Gan, Z., Toshev, A. T., Eichner, M., Nabi, M., Yang, Y., Susskind, J. M., & El-Nouby, A. (2024). Multimodal Autoregressive Pre-training of Large Vision Encoders. arXiv e-print, arXiv:2411.14402. https://doi.org/10.48550/arXiv.2411.14402

本文由mdnice多平台发布

AIMv2：多模态自回归预训练的视觉新突破