人工智能 - 论文解读 - 统一的多模态理解和生成模型综述（上） - 个人文章

一、简要介绍

近年来，多模态理解模型和图像生成模型都取得了显著的进步。尽管各自取得了成功，这两个领域却独立发展，形成了独特的架构范式：基于自回归的架构主导了多模态理解，而基于扩散的模型则成为图像生成的基石。最近，人们越来越关注开发能够整合这些任务的统一框架。GPT-4的新能力正是这一趋势的体现，突显了统一的可能性。然而，两个领域的架构差异带来了重大挑战。为了清晰地概述当前的统一努力，论文提供了一份全面的综述，旨在指导未来的研究。首先，论文介绍多模态理解和文本到图像生成模型的基础概念和最新进展。接下来，论文回顾现有的统一模型，将其分为三大架构范式：基于扩散、基于自回归以及融合自回归和扩散机制的混合方法。对于每一类，论文分析了相关工作引入的结构设计和创新。此外，论文还编制了针对统一模型的数据集和基准测试，为未来的探索提供资源。最后，论文讨论了这一新兴领域面临的关键挑战，包括令牌策略、跨模态注意力和数据问题。由于该领域仍处于早期阶段，论文预计会迅速取得进展，并将定期更新此综述。论文的目标是激发进一步的研究，并为社区提供有价值的参考。

二、研究背景

近年来，大型语言模型（llm）的快速发展，如LLaMa 、PanGu、Qwen和GPT，已经彻底改变了人工智能。这些模型在规模和能力上都有所提升，使得各种应用领域取得了突破。与此同时，大语言模型扩展到了多模态领域，诞生了强大的多模态理解模型，如LLaVa、Qwen-VL、InternVL、Ovis 和GPT 4。这些模型的能力不仅限于简单的图像描述，还能根据用户指令执行复杂的推理任务。另一方面，图像生成技术也经历了快速发展，像SD系列和FLUX这样的模型现在能够严格遵循用户的提示生成高质量的图像。

LLM和多模态理解模型的主要架构范式是基于自回归生成的方法依赖于decoder-only结构和下一个词预测来进行序列文本生成。相比之下，从文本到图像的生成领域则沿着不同的轨迹发展。最初由生成对抗网络（GANs）主导的图像生成，后来转向了基于扩散模型，这些模型利用了如UNet和DiT 等架构，以及CLIP和T5等先进的文本编码器。尽管有一些尝试使用基于LLM的架构进行图像生成，但目前基于扩散的方法在性能上仍处于领先地位。

虽然自回归模型在图像生成质量上落后于基于扩散的方法，但它们与大语言模型的结构一致性使其特别适合开发统一的多模态系统。一个能够理解和生成多模态内容的统一模型具有巨大的潜力：它可以根据复杂的指令生成图像，对视觉数据进行推理，并通过生成的输出可视化多模态分析。GPT-4o的增强能力于2025年3月问世，进一步突出了这一潜力，引发了对统一的广泛兴趣。

然而，设计这样一个统一的框架面临着重大挑战。它需要将自回归模型在推理和文本生成方面的优势与基于扩散模型在高质量图像合成方面的稳健性相结合。关键问题仍未解决，包括如何有效对图像进行令牌以实现自回归生成。一些方法在基于扩散的流程中常用VAE或VQ-GAN，或其相关变体，而其他方法则利用语义编码器，如EVA-CLIP和OpenAI- CLIP。此外，虽然离散令牌是自回归模型中文本的标准，但连续表示可能更适合图像令牌。除了令牌化之外，结合并行扩散策略与顺序自回归生成的混合架构提供了另一种有前景的方法，除了简单的自回归架构之外。因此，图像令牌技术和架构设计在统一多模态模型方面仍处于初级阶段。

为了全面概述当前统一多模态模型的状态（如图1所示），从而惠及未来的研究工作，论文呈现了这份综述。首先，论文介绍多模态理解和图像生成的基础概念及最新进展，涵盖自回归和扩散两种范式。接下来，论文回顾现有的统一模型，将其分为三大架构范式：基于扩散、基于自回归以及融合自回归和扩散机制的混合方法。在自回归和混合类别中，论文进一步根据图像令牌化策略对模型进行分类，反映了这个领域方法的多样性。

除了架构之外，论文还构建了专门用于训练和评估统一多模态模型的数据集和基准。这些资源涵盖了多模态理解、文本到图像生成、图像编辑及其他相关任务，为未来的探索奠定了基础。最后，论文讨论了这一新兴领域面临的关键挑战，包括高效的令牌化策略、数据构建、模型评估等。应对这些挑战对于提升统一多模态模型的能力和可扩展性至关重要。

在社区中，有关大型语言模型、多模态理解以及图像生成的优秀综述文章比比皆是，而论文的工作则特别关注理解和生成任务的整合。论文鼓励读者查阅这些互补的综述，以获得更广泛的视角。论文旨在激发这一快速发展的领域内的进一步研究，并为社区提供有价值的参考。

图1.公开与未公开的统一多模态模型时间线。这些模型按发布年份（2023至2025年）分类。时间线中带下划线的模型代表全模态模型，能够处理文本和图像以外的输入或输出（如音频、视频、语音）。时间线突显了该领域的快速发展。

三、基础

3.1多模态理解模型

多模态理解模型是指基于llm的架构，能够接收、推理和生成从多模态输入中生成输出。这些模型扩展了大语言模型在文本数据之外的生成和推理能力，能够跨多种信息模态实现丰富的语义理解。现有方法大多集中在视觉-语言理解（VLU）上，该领域整合了视觉（如图像和视频）和文本输入，以支持对空间关系、物体、场景和抽象概念的更全面理解。图2展示了多模态理解模型的典型架构。这些模型在一个混合输入空间中运行，其中文本数据以离散形式表示，而视觉信号则编码为连续表示。类似于传统的语言模型，它们的输出是通过分类语言建模和特定任务解码策略生成的离散令牌，这些令牌源自内部表示。

图2.多模态理解模型架构，包含多模态编码器、连接器和大语言模型。多模态编码器将图像、音频或视频转换为特征，这些特征由连接器处理并作为大语言模型的输入。连接器的架构大致可以分为三种类型：基于投影的、基于查询的和基于融合的连接器。

早期的VLU模型主要集中在使用双编码器架构来对齐视觉和文本模态，其中图像和文本首先分别编码，然后通过对齐的潜在表示进行联合推理，包括CLIP、ViLBERT、 VisualBERT和UNITER。尽管这些开创性的模型确立了多模态推理的关键原则，但它们严重依赖于基于区域的视觉预处理和独立的编码器，限制了模式的可扩展性和通用性。随着强大语言模型的出现，VLU模型逐渐转向仅包含解码器的架构，这些架构结合了冻结或最小微调的语言模型骨干。这些方法主要通过具有不同结构的连接器来转换图像嵌入，如图2所示。具体来说，MiniGPT-4 使用了一个可学习层，将CLIP派生的图像嵌入投影到Vicuna的令牌空间中。BLIP-2引入了一个查询transformer，以连接冻结的视觉编码器与冻结的大语言模型（例如Flan-T5 或Vicuna)，从而实现高效的视觉-语言对齐，并显著减少了可训练参数。Flamingo采用了门控交叉注意力层来连接预训练的具有冻结的Chinchilla 解码器的视觉编码器。

近期在VLU领域的进展突显了向通用多模态理解的转变。GPT-4V 扩展了GPT- 4的框架，能够分析用户提供的图像输入，在视觉推理、字幕生成和多模态对话方面展现出强大的能力，尽管其具有专有性质。Gemini基于仅解码器架构构建，支持图像、视频和音频模态，其Ultra版本在多模态推理任务中树立了新的标杆。Qwen系列体现了可扩展的多模态设计：Qwen-VL集成了视觉感受器和基础模块，而Qwen2-VL则增加了动态分辨率处理和M-RoPE，以稳健地处理各种输入。LLaVA-1.5和LLaVANext使用基于 CLIP的视觉编码器和Vicuna风格的大语言模型，在VQA和指令跟随任务中表现出色。InternVL系列探索了一种统一的多模态预训练策略，同时从文本和视觉数据中学习，以增强在各种视语言任务中的表现。Ovis通过可学习的视觉嵌入查找表引入了结构化嵌入对齐机制，从而生成与文本令牌结构相匹配的视觉嵌入。最近，一些模型探索了多模态处理的可扩展和统一架构。DeepSeek-VL2采用专家混合（MoE）架构来增强跨模态推理。总体而言，这些模型标志着向指令调优和以令牌为中心的框架的明确进展，能够以统一且可扩展的方式解决多样化的多模态任务。

3.2 文本到图像模型

早期扩散模型采用U-Net架构来近似评分函数。基于 Wide ResNet的U-Net设计，通过集成残差连接和自注意力块，以保持梯度流动并恢复图像细节。这些方法大致可以分为像素级方法和潜在特征级方法。像素级方法直接在像素空间中操作扩散过程，包括GLIDE引入了“ 无分类器引导 ”，以及Imagen使用预训练的大语言模型，即T5- XXL作为文本编码器。然而，这些方法在训练和推理计算成本上较为昂贵，因此发展出了潜在扩散模型（LDMs），它们在预训练变分自编码器的潜在空间中操作。LDMs在保持高生成质量的同时实现了计算效率，从而启发了各种基于扩散的生成模型，包括VQ-Diffusion、SD 2.0、SD XL和UPainting。

transformer架构的进步促使了基于transformer模型在扩散过程中的应用。开创性的扩散transformer（DiT）将输入图像转换为一系列补丁，并通过一系列transformer块进行处理。DiT还接收额外的条件信息，如扩散时间步t和条件信号c。DiT的成功启发了许多先进的生成方法，包括REPA ，该方法将自监督视觉表示注入扩散训练中以增强大规模性能；SD 3.0使用两组独立的权重来建模文本和图像模态。对于文本编码器，这些方法主要利用对比学习在共享潜在空间中对齐图像和文本模态，联合训练独立的图像和文本编码器处理大规模图像-字幕对。具体来说，GLIDE既探索了CLIP指导，也探索了无分类器指导，证明了受CLIP条件影响的扩散优于早期GAN基线，并支持强大的文本驱动编辑。SD 使用冻结的CLIP- ViT-L/14编码器来调节其潜在扩散去噪器，从而在高效计算的同时实现高质量样本。SD 3.0利用CLIP ViTL/14、 OpenCLIP bigG/14和T5-v1.1 XXL将文本转换为嵌入，以指导生成。

最近在扩散模型方面的进展已经将大语言模型纳入其中，以增强文本到图像的扩散生成，这显著提高了文本与图像的对齐效果以及生成图像的质量。RPG利用了多模态大语言模型的视觉-语言先验，从文本提示中推断出互补的空间布局，并在文本引导的图像生成和编辑过程中操纵对象组合。然而，这些方法需要不同的模型架构、训练策略和参数配置来应对特定任务，这给管理这些模型带来了挑战。一个更可扩展的解决方案是采用一种统一的生成模型，能够处理各种数据生成任务。OmniGen实现了文本到图像的生成能力，并支持多种下游任务，如图像编辑、主题驱动生成和视觉条件生成。UniReal将图像级别的任务视为不连续的视频生成，将不同数量的输入和输出图像视为帧，从而无缝支持图像生成、编辑、定制和合成等任务。GenArtist提供了一个统一的图像生成和编辑系统，由多模态大型语言模型（MLLM）代理协调。UniVG将多模态输入视为统一条件，使用单一权重集以支持各种下游应用。随着该领域研究的深入，预计将出现越来越多的统一模型，能够应对更广泛的图像生成和编辑任务。

如图4所示，根据序列表示策略，现有方法可分为三种类型：基于像素、基于令牌和基于多个令牌的模型。

1) 基于像素的模型。
PixelRNN 是一种开创性的下像素预测方法。它将二维图像转换为一维像素序列，并使用 LSTM层根据先前的像素依次生成每个像素生成值。虽然在建模空间依赖关系方面效果显著，但计算成本较高。PixelCNN引入了扩张卷积，以更高效地捕捉长距离像素依赖关系，而PixelCNN++则利用离散化的逻辑混合似然和架构改进来提升图像质量和效率。一些先进方法还提出了并行化方法来减少计算开销，使生成速度更快，特别是对于高分辨率图像。

2) 基于令牌的模型。
受自然语言处理范式的启发，基于令牌的AR模型将图像转换为紧凑的离散令牌序列，大大缩短了序列长度，实现了高分辨率合成。这一过程始于向量量化（VQ）：一个使用重构损失和承诺损失训练的编码器-解码器学习了一个潜在索引的紧凑代码本，之后仅解码器的transformer模型对这些令牌上的条件分布进行建模。典型的VQ模型包括VQ-VAE-2，VQGAN，ViT-VQGAN，等许多研究致力于增强仅解码器的transformer模型。LlamaGen将VQGAN分词器应用于LLaMA架构，实现了与DiTs相当的性能，并发现随着参数的增加，生成质量有所提高。与此同时，像DeLVM这样的数据高效变体以显著减少的数据实现了相当的保真度，而AiM、ZigMa和DiM等模型则通过整合Mamba的线性或门控注意力层，实现了更快的推理速度和更优的性能。为了丰富上下文建模，提出了随机解码和混合解码策略。例如，SAIM、RandAR和RAR随机排列补丁预测，以克服僵化的光栅偏差，而SAR将因果学习推广到任意阶数和跳过间隔。混合框架进一步融合了多种范式：RAL使用对抗策略梯度来减轻曝光偏差，Imag- eBART将层次扩散更新与AR解码交织在一起，DisCo-Diff则通过离散潜在变量增强扩散解码器，以实现最佳的FID。

3) 基于多个令牌的方法。
为了提高生成效率，最近的AR 模型已经从单独生成令牌转变为预测一组多个令牌，从而在不损失质量的情况下实现了显著的速度提升。NPP将图像令牌聚合为具有高信息密度的补丁级令牌，从而显著减少序列长度。同样地，NBP将分组扩展到更大的空间块，如行或整个帧。NAR提出使用局部“邻近”机制向外预测，而PAR则将令牌划分为不相交的子集以实现并发解码。MAR放弃了离散的令牌化和固定的顺序，转而采用通过扩散损失训练的连续表示。除了空间分组外，VAR引入了一种从粗到细的下尺度范式，这一式启发了多种先进方法，包括FlowAR、M-VAR、 FastVAR和FlexVAR。一些基于频率的方法在生成过程中进行光谱分解：FAR 和NFIG先合成低频结构，再细化高频细节。xAR抽象地统一了自回归单元，包括补丁、单元格、尺度或整个图像，置于单一框架之下。这些多令牌方法证明了为平衡现代图像生成中的保真度、效率和可伸缩性而定义适当的自回归单元的重要性。

控制机制也被整合到自回归解码器中，以实现更精确的编辑。ControlAR在解码过程中引入了空间约束，如边缘图和深度线索，允许对令牌级别的编辑进行精细控制。ControlVAR进一步发展了这一概念，通过在图像级别特征上实现尺度感知条件化，增强了连贯性和可编辑性。CAR深入探讨了类似的概念，专注于自回归模型中的高级控制机制，以增强视觉输出的细节和适应性。对于涉及多个对象或时间连贯序列的复杂场景，Many-to-Many Diffusion（M2M）适应了自回归框架，用于多帧生成，确保图像之间的语义和时间一致性。MSGNet结合了VQ-VAE和自回归建模，以保持场景中多个实体的空间-语义对齐。在医学领域，MVG将自回归图像到图像生成扩展到了分割、合成和去噪等任务，通过条件化配对的提示-图像输入实现。这些文本到图像生成的自回归方法提供了模型架构和视觉建模方法的基础，有效推进了统一多模态模型的理解与生成研究。

四、统一的多模态模型用于理解和生成

统一多模态模型旨在构建一个能够理解和生成多种模态数据的单一架构。这些模型设计用于处理各种形式的输入（例如，文本、图像、视频、音频），并以统一的方式生成一种或多种模态的输出。典型的统一多模态框架可以抽象为三个核心组件：特定模态的编码器，将不同的输入模态投影到表示空间；模态融合主干，整合来自多个模态的信息并实现跨模态推理；以及特定模态的解码器，生成所需模态的输出（例如，文本生成或图像合成）。

在本节中，论文主要关注支持视觉-语言理解和生成的统一多模态模型，即以图像和文本作为输入，并生成文本或图像作为输出的模型。如图5所示，现有的统一模型大致可以分为三种类型：扩散模型、自回归模型和融合AR +扩散模型。对于自回归模型，论文进一步根据其模态编码方法将其分为四个子类别：基于像素的编码、基于语义的编码、可学习查询的编码和混合编码。每种编码策略代表了处理视觉和文本数据的不同方式，从而导致多模态表示在集成度和灵活性上的不同水平。融合的AR+扩散模型根据模态编码分为两个子类别：基于像素的编码和混合编码。这些模型结合了自回归和扩散技术的特点，为更统一和高效的多模态生成提供了一种有前景的方法。

3.1 扩散模型

扩散模型在图像生成领域取得了显著成功，这得益于几个关键优势。首先，与生成对抗网络（GAN）相比，它们提供了更优质的样本质量，能够更好地覆盖模式并缓解诸如模式崩溃和训练不稳定等常见问题。其次，训练目标从轻微扰动的数据中预测添加的噪声，是一个简单的监督学习任务，避免了对抗动态。第三，扩散模型具有高度灵活性，在采样过程中可以结合各种条件信号，例如分类器引导和无分类器引导，从而增强可控性和生成保真度。此外，噪声调度和加速采样技术的进步显著减轻了计算负担，使得扩散模型越来越高效且可扩展。

利用这些优势，研究人员将扩散模型的应用范围从单模态任务扩展到多模态生成，旨在在一个统一的框架内支持文本和图像输出。如图5(a)所示，在多模态扩散模型中，去噪过程不仅取决于时间步和噪声，还取决于多模态上下文，如文本描述、图像或联合嵌入。这一扩展使得不同模态之间的同步生成成为可能，并允许生成输出之间进行丰富的语义对齐。

一个典型的例子是双扩散，它引入了用于联合文本和图像生成的双分支扩散过程。具体来说，给定一个文本-图像对，双扩散首先使用预训练的T5编码器通过软概率建模来编码文本，以获得离散的文本表示，并使用来自Stable Diffusion 的VAE编码器来编码图像，以获得连续的图像潜在状态。文本和图像潜在状态分别通过独立的前向扩散过程进行噪声化处理，从而在每个时间步产生带有噪声的潜在变量。

在反向过程中，模型使用两个特定于模态的去噪器联合去噪文本和图像潜在：基于transformer的文本去噪器和基于UNet的图像去噪器。至关重要的是，在每个时间步，去噪器包含跨模态条件，其中文本潜在关注图像潜在，反之亦然，从而在整个去噪轨迹中实现模态之间的语义对齐。

去噪后，文本潜在通过T5解码器解码为自然语言，图像潜在则通过VAE解码器解码为高保真图像。训练由两个独立的损失项监督：图像分支最小化标准噪声预测损失，而文本分支最小化对比对数损失。通过耦合两条扩散链并引入显式的跨模态交互，双扩散实现了从纯噪声中生成连贯且可控的多模态内容。

虽然双扩散在联合文本和图像生成方面展现出潜力，但它面临多个限制。其计算效率因需要多次扩散迭代而受到阻碍，这使得它比GAN或自回归模型等替代方案更慢。双分支架构增加了模型复杂性和训练不稳定性。此外，虽然跨模态训练可以改善模态对齐，但它仍然对噪声水平敏感，可能导致输出质量较差。最后，对生成细节的精细控制仍然具有挑战性，模型在泛化到分布外数据时也存在困难。

3.2 自回归模型

统一多模态理解和生成模型的一个主要方向是采用自回归 ( AR）架构，在这种架构中，视觉和语言令牌通常被序列化并依次建模。在这些模型中，一个骨干Transformer通常从大型语言模型（LLM）如LLaMA家族，Vicuna、Gemma系列，和 Qwen系列，改编而来，作为统一模态融合模块，自回归地预测多模态输出。

如图5所示，为了将视觉信息集成到AR框架中，现有方法提出了不同的方法。模态编码过程中图像令牌化策略，这些方法大致可分为四类：基于像素、基于语义、可学习查询和混合编码方法。

1) 基于像素的编码。
如图5（b-1）所示，基于像素的编码通常指通过预训练的自编码器仅通过图像重建来表示连续或离散的图像令牌，例如类似VQGAN的模型。这些编码器将高维像素空间压缩到一个紧凑的潜在空间中，其中每个空间块对应一个图像令牌。在统一的多模态自回归模型中，从这些编码器序列化的图像令牌被处理得类似于文本令牌，使得两种模态可以在单个序列中建模。

近期的研究采用了多种编码器设计来改进基于像素的令牌化方法。LWM 使用VQGAN分词器将图像编码为离散的潜在代码，无需语义监督。它提出了一种多模态世界建模框架，在该框架中，视觉和文本令牌被序列化在一起以实现统一的自回归建模。通过仅基于重建的视觉令牌和文本描述来学习世界动态，LWM证明了大规模多模态生成在没有专门的语义令牌的情况下是可行的。Chameleon和ANOLE都采用了VQ-IMG，这是一种改进的VQ-VAE变体，专为内容丰富的图像生成而设计。与标准的VQGAN分词器相比，VQ-IMG采用更深的编码器，具有更大的感受野，并结合残差预测以更好地保留复杂的视觉细节。一增强使得Chameleon和ANOLE能够更忠实地序列化图像内容，从而支持高质量的多模态生成。此外，这些模型促进了交错生成，允许文本和图像令牌在一个统一的自回归框架内交替生成。Emu3、SynerGen-VL和UGen使用SBER-MoVQGAN，这是一种多尺度VQGAN变体，可以将图像编码为潜在表示，捕捉全局结构和细粒度细节。通过利用多尺度令牌化，这些模型在保持高效训练吞吐量的同时，提高了自回归建模中视觉表示的表达力。与LWM类似，Liquid采用VQGAN风格的令牌器，并揭示了一个新颖的见解：当视觉理解和生成统一在一个自回归目标和共享的视觉令牌表示下时，两者可以相互受益。此外，MMAR、Orthus和Harmon引入了框架，利用其相应编码器提取的连续值图像令牌，避免了离散化带来的信息损失。它们还通过在每个自回归图像补丁嵌入上使用轻量级扩散头，将扩散过程与AR主干解耦。这种设计确保了主干的隐藏表示不会局限于最终的去噪步骤，促进更好的图像理解。

除了MMAR和Harmon之外，这些模型在预训练和生成阶段都应用了因果注意力掩码，确保每个令牌仅关注序列中的前序令牌。它们使用下一个令牌预测损失进行训练，其中图像和文本令牌均采用自回归预测，从而统一了跨模态的训练目标。值得注意的是，在基于像素的编码方法中，用于从潜在令牌重建图像的解码器通常遵循VQGAN类模型最初提出的配对解码器结构。这些解码器是轻量级卷积架构，专门优化以将离散的潜在网格映射回像素空间，主要侧重于低层次的准确重建而非高层次的语义推理。此外，由于一些方法如MMAR、Orthus和Harmon将图像令牌化为连续的潜在值，因此它们采用了轻量级扩散MLP作为解码器，以将连续的潜在值映射回像素空间。

尽管基于像素的编码方法效果显著，但它们仍面临几个固有的局限性：首先，由于视觉令牌仅针对像素级重建进行了优化，因此往往缺乏高层次的语义抽象，使得文本和图像表示之间的跨模态对齐更加困难。其次，基于像素的令牌化倾向于生成密集的令牌网格，与纯文本模型相比，序列长度显著增加，尤其是在处理高分辨率图像时。这导致在自回归训练和推理过程中产生巨大的计算和内存开销，限制了其可扩展性。第三，由于底层视觉编码器是通过以重建为中心的目标进行训练的，因此生成的视觉令牌可能保留特定模态的偏差，例如对纹理和低级模式的过度敏感，这些特性不一定有利于语义理解和细粒度的跨模态推理。

2) 语义编码。
为了克服基于像素的编码器固有的语义限制，越来越多的研究采用了语义编码方法。在这种方法中，图像输入通过预训练的文本对齐视觉编码器进行处理，例如 OpenAI-CLIP、SigLIP、EVA-CLIP或更近期的统一分词器如UNIT，如图5（b-2）所示。这些模型在大规模的图像-文本对上进行训练，目标是对比或回归，生成的视觉嵌入与语言特征在一个共享的语义空间中紧密对齐。这种表示方式能够实现更有效的跨模态对齐，尤其有利于多模态理解和生成。

几个代表性模型利用不同的语义编码器和架构设计来支持统一的多模态任务。Emu、Emu2和LaViT都采用了EVA-CLIP作为其视觉编码器。值得注意的是， Emu引入了最初的架构，结合了冻结的EVA-CLIP编码器、大型语言模型和扩散解码器，以统一VQA、图像描述和图像生成。Emu2在Emu的基础上，提出了一种简化且可扩展的统一多模态预训练建模框架。它将MLLM模型扩展到37亿参数，显著提升了理解和生成能力。LaViT介绍了一种基于EVA-CLIP构建的动态视觉令牌机制。该机制采用选择器和合并模块，根据内容复杂度自适应地从图像嵌入中选择视觉令牌。这一过程动态确定每张图像的视觉令牌序列长度。动态令牌显著减少了冗余信息，同时保留了重要的视觉线索，提高了训练效率和生成质量，在诸如标题生成、视觉问答和图像生成等任务表现优异。DreamLLM、VL-GPT、PUMA均使用OpenAI-CLIP编码器。DreamLLM引入了一种轻量级线性投影，以使CLIP嵌入与语言令牌对齐，而VL-GPT则在OpenAI-CLIP视觉编码器后采用强大的随机变换器，有效保留了原始图像的语义信息和像素细节。MM-Interleaved和PUMA通过CLIP分词器结合简单的ViT适配器或池化操作提取多粒度图像特征，以提供细粒度特征融合，从而支持丰富的多模态生成。Mini-Gemini引入了一种视觉令牌增强机制，需要双语义编码器。具体来说，它利用CLIP预训练的ViT编码器获取全局视觉令牌，而LAION预训练的ConvNeXt编码器则提供密集的局部视觉信息。然后使用交叉注意力模块通过结合来自密集编码器的详细视觉线索来优化全局视觉令牌。这些增强的全局令牌随后与文本令牌结合，并由LLM处理以实现联合视觉-语言理解和生成。这一设计有效地弥合了CLIP特征的语义抽象与密集编码器的像素级精度之间的差距。MetaMorph采用SigLIP提取视觉嵌入，并在预训练的语言模型中引入特定模态的适配器。这些适配器贯穿多个transformer层，使得视觉-语言交互比浅层投影方法更加深入。ILLUME采用UNIT作为其视觉编码器，提供一种统一表示，平衡了语义对齐和像素级保真度。与仅关注对比目标的CLIP类似编码器不同，UNIT在图像重建和对比对齐损失中联合训练，生成适用于视觉-语言理解和图像合成的令牌。基于强大的UNIT分词器，ILLUME有效生成保留语义和像素级信息的图像令牌，从而在多种理解和生成任务中表现出色，包括字幕、VQA、文本到图像和交错生成。同样，VILA-U和Unitok模仿UNIT，引入图像-文本对比学习，获得一种新颖的文本对齐视觉分词器，平衡了语义对齐和像素级保真度。

在大多数这些模型中，因果注意力掩码在MLLM训练期间应用，使用下一个令牌预测损失来优化文本和视觉令牌生成。对于图像生成，这些模型通常采用基于扩散的解码器，如SD- v1.5、SD-v2.1、SDXL或IP-adapter，这些解码器独立于MLLM进行训练。在推理过程中，MLLM生成语义级别的视觉令牌，这些令牌是然后传递给扩散解码器进行最终图像合成。这一设计选择将语义编码器与扩散解码器配对，是基于这样一个事实：语义嵌入编码了高层次的概念信息，但缺乏直接像素重建所需的高空间密度和低层次细节。具有迭代去噪机制的扩散模型特别适合这种场景：它们能够逐步精炼语义表示，生成高分辨率、逼真的图像，即使输入令牌稀疏或抽象也不例外。相比之下，尽管少数方法（如VILA-U和Unitok)采用了基于像素的解码器，但其生成的图像质量不如扩散解码器。因此，扩散解码器为语义压缩的视觉令牌提供了一条更稳健且富有表现力的解码路径，显著提升了文本-图像对齐、全局连贯性和视觉保真度。

尽管有这些优点，语义编码也存在一些局限性。首先，由于低级线索的抽象化，生成的视觉令牌在像素级别上难以控制，使得精细图像编辑、局部修复或结构保持变换变得困难。其次，语义编码器通常仅提供全局或中层表示，这在需要空间对应的任务（如表情分割或姿态精确合成）中可能不足。最后，由于语义编码器和扩散解码器通常是分别训练的，缺乏端到端优化可能导致MLLM输出与解码器预期之间的不匹配，偶尔会引起语义漂移或生成伪影。

3) 可学习查询编码。
可学习查询编码作为一种有效的策略，用于生成适应性强且与任务相关的图像表示。如图5（b -3）所示，这种方法不是单纯依赖固定的视觉令牌器或密集的图像块，而是引入了一组可学习的查询令牌，动态地从图像特征中提取有价值的内容。这些查询令牌充当内容感知探针，与视觉编码器交互以生成紧凑且语义对齐的嵌入，非常适合多模态理解和生成。

当前可学习查询编码的实现可以大致分为两种代表性范式。第一种由SEED代表，该模型提出了一种种子词典，能够学习因果视觉嵌入。具体来说，输入图像首先通过 BLIP-2 ViT编码器被编码成密集的词典特征。这些特征随后与一组可学习的查询词典连接，并由因果Q-Former处理以生成因果视觉嵌入。这一设计既使用了图像-文本对比学习，又采用了图像重建监督，使得学习到的嵌入既能保留低层次的视觉细节，又能捕捉高层次的语义对齐。在此基础上，SEEDLLAMA和SEED-X通过用更强的LLaMA2模型替换OPT主干，并将解码器升级为UnCLIPSD或SDXL，增强了模型的能力，从而在理解和生成任务中表现更优。第二种方法由MetaQueries提出，提供了一种简化的可学习查询编码。在这里，图像特征通过冻结的SigLIP编码器提取，然后与可学习的查询令牌连接，并直接传递给如LLaVA或Qwen2.5-VL 等冻结的视觉-语言主干模型。输出的因果嵌入用作扩散图像解码器的条件输入，从而实现高质量的图像生成。由于主干保持冻结状态，视觉语言理解能力与底层预训练模型保持一致，提供了一种轻量且有效的多模态生成解决方案。这些基于查询的学习设计有一个共同的优势：它们提供了自适应、紧凑且语义丰富的表示，支持高效图像理解和高质量生成。通过专注于任务驱动的令牌提取，这类模型为传统视觉令牌器提供了灵活且可扩展的替代方案，特别是在统一的多模态框架中。

尽管可学习查询编码具有灵活性和令人鼓舞的结果，但也存在一些限制，可能影响其更广泛的应用。首先，一个关键挑战是可学习查询令牌带来的计算开销增加。随着查询令牌数量的增多，模型的内存消耗和计算复杂度可能会显著上升，尤其是在扩展到大型数据集或更复杂的多模态任务时。此外，使用固定编码器（如MetaQueries方法中所见）可能会在面对新颖或复杂的视觉输入时，阻碍模型的灵活性，这些输入与预训练的数据分布不同。其次，在SEED和Met- aQueries等方法中，依赖于冻结或预训练的骨干网络会限制视觉特征对下游任务的适应性。虽然冻结可以降低训练成本并保留预先学习的知识，但它也限制了模型动态调整图像特征以适应不断变化的查询语义的能力，特别是在更多样化或组合性的设置中。最后，虽然可学习查询能够有效捕捉任务相关的特征，但它们可能无法统一处理多样化的视觉内容。例如，包含多个物体、精细细节或模糊视觉线索的复杂场景，可能无法通过相对较少的可学习查询得到充分表示。这种局限性在模型需要生成高度详细输出时尤为明显，因为固定的或少量的查询集可能无法在某些情况下捕捉到视觉输入的丰富性和变异性。

4) 混合编码。
为了应对单一视觉表示方式固有的局限性，统一的多模态模型中引入了混合编码策略。基于像素的编码方法（如VQVAE或VQGAN)擅长保留精细的视觉细节，但往往缺乏与文本的语义对齐。相比之下，基于语义的编码器 ( 如SigLIP或CLIP变体）生成的抽象表示虽然语义丰富，但在保持低层次图像保真度方面效果较差。混合编码旨在结合两种方法的优点，将像素级和语义级特征整合到一个统一的表示中。根据像素和语义令牌的整合方式，混合编码方法大致可以分为两类：伪混合编码和联合混合编码。

伪混合编码。这一类别的代表性作品包括Janus、 Janus-Pro、OmniMamba和Unifluid。如图5（b-4）所示，这些模型采用了双编码器——通常是一个语义编码器（例如SigLIP)和一个像素编码器（例如VQGAN或 VAE），但它们以特定任务的方式使用。在训练过程中，语义编码器用于视觉-语言理解任务，而像素编码器则用于图像生成任务。尽管双编码器与混合理解和生成数据一起训练，但在推理时并未使用像素编码器。这种设计背后的动机是，同时使用两种类型的数据进行混合训练可以提高理解和生成任务的性能。然而，由于每次只有一个编码器处于激活状态，这些模型未能充分利用混合编码的潜力。特别是，它们错过了在生成任务中利用语义基础和在理解任务中利用高保真视觉细节的机会。因此，这些模型通常使用像素解码器从潜在代码重建图像。

联合混合编码，如图5（b-5）所示，联合混合编码方法将语义和像素令牌整合到单一统一的输入中，供语言模型或解码器使用，从而实现两种表示的同时利用。值得注意的例子包括MUSE-VL、VARGPT、VARGPT-1.1和 ILLUME+。这些模型在融合策略上有所不同。MUSE-VL在通道维度上将SigLIP和VQGAN的特征连接起来，然后传递给大语言模型。VARGPT、VARGPT-1.1和ILLUME+ 则在序列维度上将语义和像素令牌连接起来，保持两种令牌类型在大语言模型的输入中。通过整合语义和详细的视觉信息，联合混合编码能够提供更稳健和丰富的建模能力，适用于多模态理解和生成。这些模型支持像素解码器（如VQGAN、Infinity、VAR-D30)以及基于扩散的解码器（如SDXL)，使它们能够生成具有更好语义对齐和视觉真实性的图像。

虽然混合编码通过整合像素级和语义级表示的互补优势提供了一个有前景的方向，但仍面临若干限制。许多伪混合方法在推理时未能同时利用两个编码器，从而未能充分利用细粒度视觉细节与高层次语义之间的潜在协同效应。即使在联合混合方法中，异构令牌类型的融合也可能引入模态不平衡或冗余，如果不谨慎管理，可能会阻碍下游性能。此外，双编码器架构显著增加了计算和内存开销，对可扩展性构成挑战，尤其是在高分辨率或长序列场景下。像素和语义令牌的一致性也是一个非平凡的问题，因为隐式不匹配可能导致表示不连贯或学习信号冲突。最后，当前的混合编码技术通常假设像素和语义令牌之间存在隐式对齐。然而，在实际应用中，这种对齐并不简单。视觉细节和语义抽象之间的不一致可能导致冲突的监督信号或不连贯表示，特别是在数据稀缺或噪声训练设置中。

3.3 融合自回归和扩散模型

融合自回归（AR）和扩散建模最近作为一种强大的框架，用于统一视觉语言生成。在这种范式中，文本令牌通过自回归生成，保留了大型语言模型的组合推理优势；而图像令牌则通过多步骤去噪过程生成，遵循扩散建模原则。这种混合策略使得图像生成可以非顺序进行，从而提高视觉质量和整体一致性。代表性模型，如Transfusion、Show、MonoFormer和LMFusion都遵循这种方法。在生成过程中，会在潜在的视觉表示中添加噪声，并通过迭代过程去除这些噪声，该过程以先前生成的文本或完整的跨模态上下文为条件。尽管这种设计由于多次采样步骤增加了推理成本，但它在符号控制和视觉保真度之间实现了有效的平衡，使其非常适合高质量的视觉-语言生成任务。现有的融合AR +扩散模型通常采用两种图像令牌策略之一：基于像素的编码和混合编码。

1) 基于像素的编码：如图5（c-1）所示，基于像素的编码将图像转换为离散的令牌或连续的潜在向量，这些向量随后作为目标，在自回归生成的文本令牌条件下用于扩散去噪过程。在最近的研究中，Transfusion、MonoFormer和LMFusion都采用了通过SD-VAE提取的连续潜在表示。这些模型共享一个共同的训练目标，结合了用于语言建模的自回归损失和用于图像重建的扩散损失，并利用双向注意力机制实现空间连贯性。尽管有这一共同框架，但每个模型都引入了独特的架构创新：Transfusion提出了一种统一的transformer主干，结合特定模态的层来处理离散和连续输入；MonoFormer引入了一种紧凑的架构，通过共享块和任务依赖的注意力掩码来平衡增强现实和扩散任务；而 LMFusion通过一个轻量级的视觉注入模块，使冻结的大型语言模型能够执行高质量的图像生成，同时保留语言能力并仅训练视觉分支。相比之下，Show-o使用基于MAGVIT-v2 的离散像素级分词器，生成与transformer解码兼容的符号图像令牌。它支持基于增强现实的文本令牌生成和基于扩散的图像合成，通过自回归和扩散损失的组合进行监督。总体而言，这些模型展示了基于像素编码在平衡语言模型的语义可控性和扩散过程的高分辨率视觉保真度方面的有效性。

尽管基于像素的编码方法在融合增强现实和扩散框架中非常有效，但也存在一些局限性。首先，因为扩散采样的迭代性质以及高维特征处理的需求，依赖连续潜在空间(例如通过SD-VAE)的模型在训练和推理过程中产生了巨大的计算开销。这在扩展到高分辨率图像生成或多轮视觉-语言交互时尤为繁重。其次，文本和视觉模态之间的对齐仍然具有挑战性。尽管双向注意力机制能够实现跨模态融合，但潜在空间表示——特别是通过SD-VAE中的无监督重构目标学习到的表示——可能无法始终与语义上有意义的语言令牌最佳对齐，从而可能导致细粒度可控性较弱或生成结果难以解释。最后，Show-o中使用的离散分词方案继承了基于VQ模型的问题，如代码本塌陷和表示细微视觉差异的能力有限。这些符号令牌虽然与transformer式建模兼容，但可能会限制视觉多样性并降低重建保真度，相较于连续潜在方法。

2) 混合编码：如图5（c-2）所示，混合编码融合了语义特征（例如，来自CLIP或ViT编码器）和像素级潜在（例如SD-VAE)，提供更丰富的图像表示。这种方法允许模型利用高层次的语义抽象，同时保持详细的视觉信息。一个典型的例子是Janus-Flow，它采用双编码器架构，提出了一种极简的架构，将AR语言模型与修正流和谐地结合在一起。该模型解耦了理解和生成编码器，使用SigLIP作为多模态理解的视觉编码器，以及SDXL-VAE用于图像生成。然而，这种伪混合编码设计限制了模型在生成过程中同时利用语义和像素级特征的能力，因为只有像素编码器在图像合成过程中处于激活状态。这种解耦虽然有利于模块化和训练效率，但阻止了模型在图像解码时充分利用语义线索，可能削弱生成任务中的细粒度对齐和多模态组合性。

尽管取得了进展，但混合编码方法仍面临若干挑战。双编码器架构的集成以及自回归过程与扩散过程的结合增加了模型的整体复杂度。这可能导致更高的计算成本和更长的训练时间，使其效率低于简单的模型。此外，确保语义特征和像素级特征的有效对齐需要精心的设计和优化。这一对齐过程可能难以实现和微调，限制了模型以平衡方式充分利用两种模态的能力。另外，在统一模型中平衡视觉-语言理解和图像生成的目标通常会导致权衡，其中一个任务的改进可能会以牺牲另一个任务为代价。这些局限性突显了需要更加高效的混合设计，能够更好地利用视觉和语义特征的优势，同时减少计算开销并保持跨任务的高性能。

3.4 任意到任意多模态模型

虽然早期的统一多模态模型主要关注文本-图像对，但最近的研究已经扩展到任意到任意的多模态建模。这一雄心勃勃的方法旨在创建能够处理和生成多种模态的模型，包括音频、视频、语音、音乐等。这些模型力求在一个架构中统一特定模态的编码器和解码器，从而实现文本转音频、视频转文本、语音转音乐，甚至图像转视频等任务。本节将回顾该新兴领域中的代表性作品，重点介绍其设计原则、模块化以及当前的局限性。

大多数任意到任意的模型都采用模块化设计，每个模态都配备了一个专门的编码器和解码器，而共享的主干网络则促进了跨模态表示学习和序列建模。例如，OmniFlow集成了用于音频和音乐生成的HiFiGen 、用于图像处理的SD-VAE，并使用了类似DiT的扩散模型（MMDiT）作为主干网络。这种模块化设计使得模型能够高效地结合不同的模态，以完成复杂的生成任务。

一些模型依赖于共享的嵌入空间，在特征级别上统一不同的模态。例如，Spider、X-VILA和Next-GPT利用了ImageBind——一种对比训练模型，能够将六种模态（文本、图像、视频、音频、深度和热信息）映射到一个单一的嵌入空间。这种统一表示使得通过特定模态的解码器，如Stable Diffusion、Zeroscope或基于LLM的文本解码器，实现灵活的条件化和生成成为可能。尽管这种方法在理论上非常优雅，但其生成能力通常受到解码器质量和共享嵌入粒度的限制。

其他模型，如AnyGPT和Unified-IO 2，扩展了序列到序列的范式以处理多种模态。AnyGPT使用 EnCodec进行音频令牌化，SpeechTokenizer处理语音，并训练一个具有特定模态前缀的统一变换器。而Unified-IO 2则采用了更结构化的编码器-解码器设计，包括视觉、音频和语言模态，支持单个模型内的任务，如AST转文本、语音转图像或视频字幕生成。

尽管取得了令人鼓舞的进展，但目前的任何对任何模型仍面临一些挑战。一个关键问题是模态不平衡，其中文本和图像模态通常占主导地位，而音频、视频和音乐等其他模态则代表性不足。这限制了这些模型能够处理的任务多样性。另一个挑战是可扩展性，因为支持广泛的模态会增加模型复杂度，导致推理延迟增加和资源需求增大。此外，确保不同模态之间的语义一致性仍是一项艰巨的任务，模型往往难以保持一致且贴近实际的输出。这些挑战代表了任意到任意多模态模型开发中的持续研究领域。

然而，这些模型是朝着开发能够理解和生成人类感官输入和交流全谱系的通用基础模型迈出的关键一步。随着数据架构和训练范式的不断进化，未来的任意到任意模型预计将变得更加组合化、高效，并真正实现跨模态生成。

论文解读 - 统一的多模态理解和生成模型综述（上）

一、简要介绍

二、研究背景

三、基础

3.1多模态理解模型

3.2 文本到图像模型

四、统一的多模态模型用于理解和生成

3.1 扩散模型

3.2 自回归模型

3.3 融合自回归和扩散模型

3.4 任意到任意多模态模型

合合技术团队

引用和评论

合合信息首批通过中国信通院文档图像篡改检测平台能力完备性测评

一文掌握 MCP 上下文协议：从理论到实践

LRU算法，你别跑，我就要吃透你

大模型中的Token究竟是什么？从原理到作用深度解析

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

大模型时代，后端程序员如何避免被AI卷死？

MCP 协议为何不如你想象的安全？从技术专家视角解读