【论文解读】多模态大模型综述

一、简要介绍

多模态大语言模型（MLLM）是近年来一个新兴的研究热点，它利用强大的大语言模型（LLM）作为大脑进行多模态研究。MLLM令人惊讶的涌现能力，比如基于图像写故事和无ocr的数学推理，在传统方法中是罕见的，这表明了一条通往人工通用智能的潜在道路。本文旨在对MLLM的最新研究进展进行跟踪和总结。首先，论文提出了MLLM的公式，并描述了它的相关概念。然后，论文讨论了关键的技术和应用，包括多模态指令调整（M-IT）、多模态上下文学习（M-ICL）、多模态思维链（M-CoT）和LLM辅助视觉推理（LAVR）。最后，论文讨论了现有的挑战，并指出了很有前景的研究方向。鉴于MLLM的时代才刚刚开始，作者将继续更新这项调查，并希望它能激发更多的研究。

二、概要

本文将近期代表性MLLM分为四种主要类型：多模态指令调优（MIT）、多模态上下文学习（M-ICL）、多模态思维链（M-CoT）和LLM辅助视觉推理（LAVR）。前三个构成了MLLM的基础原理，最后一个是以LLM为核心的多模态系统。请注意，这三种技术是相对独立的，可以结合使用。因此，论文对一个概念的说明也可能涉及到其他概念。论文根据四个主要类别组织调查，并按顺序进行介绍。论文首先详细介绍了M-IT（3.1），以揭示LLM如何从两个方面来适应多模态：架构和数据。然后论文介绍了M-ICL（3.2），这是一种在推理阶段常用的提高few-shots性能的有效技术。另一个重要的技术是M-CoT（3.3），它通常用于复杂的推理任务。之后，论文进一步总结了LLM在LAVR（3.4）中主要扮演的几个角色，这经常涉及到这三种技术。最后，论文总结了潜在的研究方向。

三、方法

3.1.多模态指令调整

3.1.1介绍

指令是指对任务的描述。指令调优是一种技术，涉及在指令格式数据集上对预先训练的LLM进行微调。通过这种方式进行调优，LLM可以通过遵循新的指令来泛化到不可见的任务，从而提高zero-shot性能。这个简单而有效的想法激发了在NLP领域的后续工作的成功，如ChatGPT、DoucltGPT、FLAN 和OPT-IML。指令调优与相关的典型学习范式之间的比较如图1所示。监督微调方法通常需要许多特定于任务的数据来训练特定于任务的模型。提示方法减少了对大规模数据的依赖，并可以通过提示工程来完成专门的任务。在这种情况下，虽然few-shots性能得到了改善，但zero-shot性能仍然是相当平均的。不同的是，指令调优学习如何推广到看不见的任务，而不是像两个对应任务那样适合特定的任务。此外，指令调优与多任务提示高度相关。

相比之下，传统的多模态模型仍然局限于前两个调优范式，缺乏zero-shot能力。因此，最近的许多工作都探索了将LLM中的指令调优的成功扩展到多模态。为了从单模态扩展到多模态，对数据和模型都需要进行相应的自适应。对于这些数据，研究人员通常通过调整现有的基准数据集或通过自指令来获取M-IT数据集。对于该模型，一种常见的方法是将外语模式的信息注入到LLM中，并将其视为强大的推理者。相关工作要么直接将外语嵌入与LLMs对齐，要么诉诸专家模型将外语模式翻译成LLMs可以摄取的自然语言。通过这种方式，该工作通过多模态指令调优将LLM转换为多模态聊天机器人和多模态通用任务求解器。在本节的以下部分中，论文首先提供基础知识（3.1.2）。在过渡到M-IT的描述之前，论文还额外引入了一个共同的过程，即对齐预训练（3.1.3）。然后构造剩余的内容，如图2所示：论文首先介绍M-IT数据的收集方式（3.1.4），然后详细讨论MLLM的模型自适应，即弥合不同模式之间差距的各种方法（3.1.5）。最后，论文介绍了评估方法来评估指令调整的MLLM（3.1.6）。

3.1.2初步研究

本节简要说明了多模态指令样本的一般结构和M-IT的通用过程。一个多模态指令样本通常包括一个in指令和一个输入-输出对。该指令是一种描述任务的自然语言句子，例如，“详细描述图像。”输入可以是一个M-IT的图像-文本对，比如视觉问题-回答（VQA）任务，或者只能是像图像字幕任务这样的图像。输出是对基于输入条件的指令的答案。说明模板是灵活的，并可人工设计，如表1所示。请注意，指令样本也可以推广到多轮指令，其中多模态输入是共享的。

形式上，一个多模态指令样本可以用三联体形式表示，即（I、M、R），其中I、M、R分别表示指令、多模态输入和地面真实响应。MLLM预测了一个给定的指令和多模态输入的答案：

这里，A为预测的答案，θ为模型的参数。训练目标通常是用于训练LLMs 的原始自回归目标，基于此目标，MLLM被迫预测响应的下一个标记。其目标可以表示为：

其中，N是GT响应的长度。

3.1.3模态对齐

通常对成对数据进行大规模的预训练，以鼓励不同模式之间的对齐，这比M-IT优先级更高。对齐数据集通常是图像-文本对或自动语音识别（ASR）数据集，它们都包含文本。更具体地说，图像-文本对以自然语言句子的形式描述图像，而ASR数据集包含语音的转录。对齐预训练的一种常见方法是保持预训练模块（例如视觉编码器和LLM）冻结，并训练一个可学习的接口，如下一节所示。

3.1.4数据

多模态指令跟踪数据的收集是M-IT技术的关键。这些收集方法可以大致分为基准自适应（Benchmark Adaptation）、自指令（Self-Instruction）和混合组合（Hybrid Composition）。论文依次说明这三种方法。基准自适应（Benchmark Adaptation）基准数据集是高质量数据的丰富来源。因此，大量的研究工作利用现有的基准数据集来构建指令格式的数据集。以VQA数据集的转换为例，原始样本是一个输入输出对，其中输入包括一个图像和一个自然语言问题，输出是以图像为条件的问题的文本答案。这些数据集的输入-输出对可以很自然地包含指令样本的多模态输入和响应（见3.1.2）。这些指令，即对任务的描述，既可以来自人工设计，也可以来自GPT辅助下的半自动生成。具体来说，有些工作人员用人工制作了一个候选指令池，并在训练期间取样其中一个。论文提供了一个VQA数据集的指令模板示例，如表2所示。其他的工作是人工设计一些种子指令，并使用这些指令提示GPT生成更多内容。请注意，由于现有的VQA和标题数据集的答案通常是简洁的，因此直接使用这些数据集进行指令调优可能会限制MLLM的输出长度。有两个常见的策略来解决这个问题。第一个方法是修改指令。例如，ChatBridge明确地为短答数据声明简短的内容，以及为标题数据声明一个句子和单个句子。类似地，DuultBLIP为天生喜欢短响应的公共数据集插入简短的指令模板。第二个方法是扩展现有答案的长度。例如，M-IT建议通过使用原始问题、答案和上下文提示ChatGPT来重新表述原始答案。自指令（Self-Instruction）尽管现有的基准数据集可以提供丰富的数据源，但它们通常不能很好地满足人类在现实世界场景中的需求，比如多轮对话。为了解决这个问题，一些工作通过自指令收集样本，引导LLM，使用一些人工注释的样本生成文本指令跟踪数据。具体来说，一些指令后面的样本是人工制作的种子示例，然后提示ChatGPT/GPT-4以种子样本为指导，生成更多的指令样本。LLaVA 通过将图像转换到标题和边界框的文本中，并促使GPT-4在种子示例的上下文中生成新的数据。通过这种方式，构建一个M-IT数据集，称为LLaVA-Deult-150k。根据这个想法，随后的工作如MiniGPT-4、ChatBridge、GPT4Tools和DetGPT为不同的需求开发了不同的M-IT数据集。混合组合（Hybrid Composition）除了M-IT数据外，仅使用语言的用户助手会话数据还可以用于提高会话熟练度和指令遵循能力。LaVIN通过从纯语言和M-IT数据中随机抽样直接构建一个mini-batch。多指令通过单模态和多模态数据的融合来探索不同的训练策略，包括混合指令调优（结合两种类型的数据和随机洗牌）、顺序指令调优（文本数据和多模态数据）和基于适配器的顺序指令调优。经验结果表明，混合指令调优至少并不比仅对多模态数据进行调优更差。

3.1.5模态桥接

由于LLM只能感知文本，因此弥合自然语言和其他模式之间的差距是必要的。然而，以端到端方式训练一个大型多模态模型将是昂贵的。因此，一种更实用的方法是在预先训练好的视觉编码器和LLM之间引入一个可学习的接口。另一种方法是在专家模型的帮助下将图像翻译成语言，然后将该语言发送到LLM。可学习接口可学习的接口负责在冻结预训练模型的参数时，连接不同的模态。挑战在于如何有效地将视觉内容翻译成LLM能够理解的文本。一个常见而可行的解决方案是利用一组可学习的查询令牌以基于查询的方式提取信息，它首先在Flamingo和BLIP-2中实现，随后被各种工作继承。此外，一些方法使用基于投影的接口来关闭模态间隙。例如，LLavA 采用简单的线性层来嵌入图像特征，MedVInTTE使用两层多层感知器作为桥接。还有一些工作探索了一种参数高效的调优方式。LLaMA-adapter在transformer中引入了一个轻量级适配器模块。LaVIN设计了一种混合模态适配器来动态决定多模态嵌入的权重。专家模型除了可学习的接口外，使用专家模型，如图像字幕模型，也是一种可行的弥补模态差距的方法。不同的是，专家模型背后的想法是不经过训练就将多模态输入转换成语言。这样，LLM就可以通过转换后的语言间接地理解多模态性。例如，视频聊天-文本使用预先训练好的视觉模型来提取视觉信息，如动作，并使用语音识别模型来丰富描述。虽然使用专家模型很简单，但它可能不如采用可学习的接口那样灵活。将外语形式转换为文本通常会导致信息丢失。正如视频聊天-文本所指出的那样，将视频转换为文本描述会扭曲时空关系。

3.1.6评估

在M-IT之后，评估模型的性能有各种指标，根据问题类型可以大致分为两种类型，包括闭集和开集。闭集闭集问题指的是一种问题，其中可能的答案选项是预定义的，并限制在一个有限的集。评估通常是根据在基准适应的数据集上形成的。在这种情况下，可以通过基准指标自然地判断响应。例如，Instruct-BLIP报告了在ScienceQA 上的准确性，以及在NoCaps 和Flickr30K 上的CIDEr评分。评估设置通常为zero-shot或微调。第一种设置通常会选择涵盖不同一般任务的广泛数据集，并将它们划分为固定数据集和保留数据集。在对前者进行调优后，使用不可见的数据集甚至不可见的任务对后者进行zero-shot性能评估。相比之下，在评估特定于领域的下游任务时，经常会观察到第二种设置。例如，LLaVA 和LLaMA-adapter报告了在ScienceQA 上的精细性能。LLaVA-Med 报告了biomedical VQA的结果。上述评价方法通常局限于一小范围的选定任务或数据集，缺乏全面的定量比较。为此目的，一些工作已经努力开发专门为MLLMs设计的新基准。例如，Fu等人构建了一个综合的评估基准MME，共包括14个感知和认知任务。MME中的所有指令-答案对都是人工设计的，以避免数据泄漏。10个先进的MLLM通过详细的排行榜和分析进行了评估。提出了LAMM-Benchmark用于定量评价各种二维/三维视觉任务的方法。Video-chatgpt提出了一个基于视频会话模型的定量评估框架，该框架包含了两种类型的评估，即基于视频的生成性能的评估和zero-shot问答。开集与封闭集问题相比，对开集问题的回答可以更灵活，其中MLLM通常扮演聊天机器人的角色。因为聊天的内容可以是任意的，所以要比封闭式输出更难判断。该标准可分为人工评分、GPT评分和案例研究。人工评分需要人类来评估生成的反应。这种方法通常涉及到旨在评估特定维度的人工制作的问题。例如，mPLUG-Owl收集了一个视觉相关的评估集来判断自然图像理解、图表和流程图理解等能力。类似地，GPT4Tools分别构建了两个微调和zero-shot性能集，并从思维、行动、参数和整体等方面评估响应。由于人工评估是劳动密集型的，一些研究人员探索了GPT评分，即GPT评分。这种方法常用于评价多模态对话的表现。LLaVA 提出通过GPT-4对不同方面的回答进行评分，如帮助性和准确性。具体来说，从COCO验证集中采样了30张图像，每一张图像都有一个简短的问题、一个详细的问题、通过GPT-4的自指令的问题和一个复杂的推理问题。由MLLM和GPT-4生成的答案都被发送到GPT-4中进行比较。随后的工作遵循这个想法，并提示ChatGPT 或GPT-4 对结果进行排名或判断哪一个更好。基于GPT-4的评分的一个主要问题是，目前它的多模态接口还不公开。因此，GPT-4只能基于与图像相关的文本内容生成响应，如标题或边界框坐标，而不需要访问图像。因此，在这种情况下，将GPT-4设置为性能上限可能是值得怀疑的。另一种方法是通过案例研究来比较MLLM的不同能力。例如，mPLUG-Owl使用一个视觉相关的笑话理解案例来与GPT-4和MM-REACT 进行比较。类似地，Video-LLaMA 提供了一些案例来演示一些功能，如视听共同感知和常识概念识别。其他其他一些方法则关注于MLLM的一个特定方面。例如，多指令提出了一种称为灵敏度的度量，它可以评估模型对不同指令的鲁棒性。Li等人深入研究了对象幻觉问题，并提出了一种查询方法POPE来评估这方面的性能。Zhao等人考虑了安全问题，并提出评估MLLM对对抗性攻击的鲁棒性。

3.2多模态的上下文学习

ICL是LLM的重要突发性能力之一。ICL有两个很好的特点： (1)与传统的从丰富的数据中学习内隐模式的监督学习范式不同，ICL的关键是从类比中学习。具体来说，在ICL设置中，LLM从几个示例和可选指令中学习，并推断新问题，从而以少量的方式解决复杂和没见过的任务。(2) ICL通常以无训练的方式来实现，因此可以在推理阶段灵活地集成到不同的框架中。一个与ICL密切相关的技术是指令调优（见3.1），这通过经验证明可以提高ICL能力。在MLLM的背景下，ICL已经扩展到更多的模态，形成多模态ICL（M-ICL）。基于（3.1.2）中的设置，在推理时，M-ICL可以通过向原始样本中添加一个演示集，即一组上下文内的样本来实现。在这种情况下，模板可以如表3所示进行扩展。请注意，论文列出了两个上下文中的示例来进行说明，但是示例的数量和顺序可以灵活地调整。事实上，模型通常对演示的安排很敏感。

在多模态中的应用方面，M-ICL主要用于两种场景： (1)解决各种视觉推理任务，(2)教LLM使用外部工具。前者通常包括从一些特定于任务的例子中学习，并推广到一个新的但相似的问题。从指令和演示中提供的信息中，LLM可以了解到任务正在做什么和输出模板是什么，并最终生成预期的答案。相比之下，工具使用的示例通常是文本的，而且更细粒度。它们通常包括一系列步骤，可以按顺序执行来完成任务。因此，第二种情况与CoT密切相关（见3.3）。

3.3.多模态的思维链

正如先驱工作所指出的，CoT是“一系列中间推理步骤”，已被证明在复杂推理任务中是有效的。CoT的主要思想是促使LLM不仅输出最终的答案，而且还输出得到答案的推理过程，类似于人类的认知过程。受自然语言处理成功的启发，提出了多种工作，将单模态CoT扩展到多模态CoT（M-CoT）。论文总结了这些工作，如图3所示。首先，类似于M-IT中的情况（见3.1），需要填补模态缺口（3.3.1）。然后，引入了不同的范式来获取M-CoT（3.3.2）。最后，论文描述了M-CoT的更具体的方面，包括构型（3.3.3）和链的公式（3.3.4）。

3.3.1模态桥接

为了将成功从NLP转移到多模态，模态桥接是第一个需要解决的问题。大致有两种方法可以实现这一点：通过融合特征或通过将视觉输入转换为文本描述。与3.1.5中的情况类似，我们将它们分别分类为可学习的接口和专家模型，并按顺序进行讨论。可学习接口这种方法包括采用一个可学习的接口来将视觉嵌入映射到单词嵌入空间。映射的嵌入可以作为提示，将其发送到具有其他语言的LLM，以引出M-CoT推理。例如，CoT-PT 链包含多个元网，用于提示调优以模拟推理链，其中每个元网将视觉特征嵌入到对提示的特定步骤的偏差中。M-CoT采用了一个两阶段的框架，具有共享的基于transformer的结构，其中视觉和文本特征通过交叉注意相互作用。专家模型引入一个专家模型来将视觉输入转换为文本描述是一种替代的模态桥接方式。例如，ScienceQA 采用了一个图像字幕模型，并将图像字幕和原始语言输入的连接提供给LLM。这种方法虽然简单、直接，但在字幕处理过程中可能会出现信息丢失。

3.3.2学习范式

学习范式也是值得研究的一个方面。获得M-CoT能力的方法大致有三种，即通过微调和无训练的few-shots/zero-shot学习。这三种方法的样本量要求按降序排列。直观地说，微调方法通常涉及到为M-CoT学习管理特定的数据集。例如，ScienceQA 构建了一个包含演示和解释的科学问答数据集，它可以作为学习CoT推理的来源，并对该数据集进行微调。多模态CoT也使用了ScienceQA基准测试，但以两步的方式生成输出，即基本原理（推理步骤链）和基于基本原理的最终答案。CoT-PT通过提示调优和特定步骤的视觉偏差的组合来学习隐式推理链。与微调相比，few-shots/zero-shot学习的计算效率更高。它们之间的主要区别是，few-shots学习通常需要人工制作一些上下文中的例子，以便模型可以更容易地学习一步一步地进行推理。相比之下，zero-shot学习不需要任何具体的CoT学习的例子。在这种情况下，通过提示设计的指令，如“让我们逐帧思考”或“这两个关键帧之间发生的事情”，模型学习在没有明确指导的情况下利用嵌入的知识和推理能力。类似地，一些提示模型描述任务和工具使用，将复杂任务分解为子任务。

3.3.3链配置

链结构是推理的一个重要方面，可以分为适应性的结构和预定义的结构。前一种配置要求LLM自己决定何时停止推理链，而后一种设置则停止具有预定义长度的链。

3.3.4生成模式

这个链是如何构建的，这是一个值得研究的问题。论文将目前的工作总结为(1)基于推断的模式和(2)基于预测的模式。具体来说，基于填充的模式要求在周围的上下文之间推断出步骤（前面的步骤和后面的步骤），以填补逻辑空白。相比之下，基于预测的模式需要扩展推理链，如给定的条件，如指令和之前的推理历史。这两种类型的模式都要求生成的步骤应该是一致的和正确的。

3.4.LLM辅助视觉推理

3.4.1介绍

受工具增强LLMs成功的启发，一些研究探索了调用外部工具或视觉基础模型进行视觉推理任务的可能性。将LLM作为具有不同角色的助手，这些工作构建特定于任务的或通用的视觉推理系统。与传统的视觉推理模型相比，这些工作表现出几个良好的特征： (1)较强的泛化能力。这些系统配备了从大规模预训练中获得的丰富的开放世界知识，可以很容易地推广到具有显著的few-shots/zero-shot性能的没见过的物体或概念。(2)应急能力。借助于强大的推理能力和丰富的LLM知识，这些系统能够执行复杂的任务。例如，给定一幅图像，MM-REACT 可以解释表面下的含义，比如解释为什么一个梗很有趣。(3)更好的交互性和控制性。传统的模型通常允许一组有限的控制机制，并且通常需要昂贵的管理数据集。相比之下，基于LLM的系统能够在用户友好的接口中进行精细的控制（例如，点击和自然语言查询）本节的以下部分组织如图4所示：我们首先介绍在构建LLM辅助视觉推理系统中使用的不同训练范式（3.4.2）。随后，我们深入研究了LLM在这些系统中所扮演的主要角色（3.4.3）。最后，我们以各种类型的性能评估来总结我们的讨论。

3.4.2训练范式

根据训练范式，LLM辅助的视觉推理系统可分为无训练和微调两种类型。无训练在预先训练的LLM中存储了丰富的先验知识，一种直观而简单的方法是冻结预先训练的模型，并直接提示LLM满足各种需求。根据设置，推理系统可以进一步分为few-shots模型和zero-shot模型。few-shots模型需要一些人工制作的上下文示例（见3.2）来指导LLM生成一个程序或一系列执行步骤。这些程序或执行步骤可作为相应的基础模型或外部工具/模块的指令。zero-shot模型通过直接利用LLM的语言/语义知识或推理能力更进一步。例如，PointCLIP V2提示GPT-3生成具有3d相关语义的描述，以便更好地与相应的图像对齐。在CAT中，LLM被指示根据用户的查询来细化标题。微调为了激活工具使用方面的规划能力，并提高系统的指令遵循能力，GPT4TOOLS引入了教学调优方法（见3.1）。收集了一个新的与工具相关的指令数据集，并用于微调模型。

3.4.3函数

为了进一步研究LLM在LLM辅助视觉推理系统中所扮演的角色，论文将现有的相关工作分为三种类型： LLM作为控制器 LLM作为决策者 LLM作为语义细化者前两个角色，即控制器和决策者，都与CoT有关（见3.3）。它经常被使用，因为复杂的任务需要被分解为中间的、更简单的步骤。当LLM作为控制器时，系统通常在单轮任务中完成任务，而多轮任务在决策者中更为常见。论文将在下面的部分中描述LLM如何扮演这些角色。 LLM作为控制器在这种情况下，LLM充当一个中央控制器，(1)将一个复杂的任务分解为更简单的子任务/步骤，以及(2)将这些任务分配给适当的工具/模块。第一步通常是通过利用LLM的CoT能力来完成的。具体来说，LLM被明确提示输出任务规划，或者更直接地输出调用的模块。例如，程序提示GPT-3输出一个可视化程序，其中每个程序行调用一个模块来执行子任务。此外，LLM还需要为模块输入输出参数名称。为了处理这些复杂的需求，一些人工制作的上下文中的例子（见3.1）示例被用作引用。这与推理链的优化密切相关（见3.3），或者更具体地说，是从最少到最多的提示的技术。这样，复杂的问题就被分解成一些被依次解决的子问题。 LLM作为决策者在这种情况下，复杂的任务以多轮的方式解决，通常以迭代的方式。决策者经常履行以下职责： (1)总结当前的上下文和历史信息，并决定在当前步骤中可用的信息是否足以回答问题或完成任务；(2)以一种用户友好的方式组织和总结答案。 LLM作为一个语义细化器当LLM被用作语义精炼器时，研究人员主要利用他们丰富的语言学和语义知识。具体来说，LLM经常被要求将信息整合到一致的、流畅的自然语言句子中，或根据不同的特定需求生成文本。

3.4.4评估

有两种方法来评估LLMa辅助视觉推理系统的性能，即基准指标和人工评估. 基准指标一种简单的评估方法是在现有的基准数据集上测试系统，因为度量可以直接反映模型完成任务的程度。例如，Chameleon是在复杂的推理基准上进行评估的，包括ScienceQA和TabMWP 。IdealGPT报告了在VCR和SNLI-VE的准确性人工评估一些工作采用人工评级来评估模型的具体方面。例如，ChatCaptioner要求人类注释者判断由不同模型生成的字幕的丰富性和正确性。GPT4Tools 计算思维、行动、论证的成功率和总体成功率来衡量模型分配工具使用情况的能力。VISPROG在语言引导的图像编辑任务时人工计算评估模型的准确性。

四、挑战和未来方向

MLLM的发展仍处于初级阶段，因此留下了很大的改进空间，论文总结如下：目前的MLLMS感知能力仍然有限，导致不完整或错误的视觉信息获取。这可能是由于信息容量和计算负担之间的妥协。更具体地说，Q-former只使用32个可学习标记来表示图像，这可能会导致信息丢失。尽管如此，扩大令牌大小将不可避免地给LLM带来更大的计算负担，因为其输入长度通常是有限的。一种潜在的方法是引入像SAM这样的大型视觉基础模型，以更有效地压缩视觉信息 MLLM的推理链可能是脆弱的。例如，Fu等人发现，在数学计算的情况下，虽然MLLM计算了正确的结果，但由于推理的中断，它仍然提供了错误的答案。这说明单模态LLM的推理能力可能不等于LLM的推理能力。改进多模态推理的问题值得研究。 MLLM的指令遵循能力需要升级。在M-IT之后，一些MLLM不能生成预期的答案（“是”或“否”），尽管有明确的指令，“请回答是或否”，。这表明，指令调优可能需要覆盖更多的任务来提高泛化性。幻觉问题是普遍存在的，这在很大程度上影响了MLLM的可靠性。这可能是由于训练前的对齐不足所致。因此，一种可能的解决方案是在视觉模式和文本模式之间执行更细粒度的对齐。细粒度是指通过SAM 可以得到的图像的局部特征，以及相应的局部文本描述。需要进行参数高效的训练。现有的可学习接口和专家模型这两种模态桥接方式，都是减少计算负担的初步探索。在有限的计算资源下，更有效的训练方法可以在MLLM中释放更多的能力。

五、结论

在本文中，论文对现有的MLLM文献进行了调查，并提供了其主要方向的广泛观点，包括三种常见技术（M-IT、M-ICL和MCoT）和构建任务解决系统（LAVR）的一般框架。此外，论文强调了目前有待填补的研究空白，并指出了一些有前景的研究方向。论文希望这项调查能让读者清楚地了解MLLM目前的进展，并激发更多的工作。

【论文解读】多模态大模型综述

合合技术团队

引用和评论

TextIn OCR Frontend前端开源组件库发布！

一文掌握 MCP 上下文协议：从理论到实践

LRU算法，你别跑，我就要吃透你

AI Agent爆火后，MCP协议为什么如此重要！

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略