4M-21:苹果与EPFL联合开源的通用多模态AI模型
苹果与瑞士洛桑联邦理工学院(EPFL)的研究人员联合开源了4M-21,这是一个能够处理21种输入和输出模态的通用AI模型。4M-21在多个视觉基准测试中表现出色,且以Apache 2.0许可证发布。
模型架构与训练
4M-21是一个基于Transformer的编码器-解码器模型,包含30亿个参数。所有21种输入模态通过特定模态的分词器映射为离散的token,模型能够根据任意输入模态生成任意输出模态。该模型在约5亿个多模态数据样本上进行训练,数据集包括COYO和C4。
性能与能力
4M-21在多个视觉基准测试中超越了同类基线模型,例如语义分割和深度估计。此外,该模型能够执行多种任务,包括可操控的图像生成和图像检索。苹果表示,4M-21展示了在大量不同模态/任务上训练单一模型而不会导致性能下降的可能性,并显著扩展了现有模型的即用能力。
模态与分词器
4M-21是苹果早期模型Massively Multimodal Masked Modeling (4M)的扩展,后者仅支持7种模态。新版模型将模态数量增加了三倍,包括文本、像素数据以及多种图像、语义和几何元数据。每种模态都有专用的分词器,文本模态使用WordPiece分词器,图像模态则使用变分自编码器(VAE)。
训练目标与应用
模型的训练目标是一个简单的“基于交叉熵损失的每token分类问题”。通过支持多模态输入和链式操作,4M-21支持精细的图像编辑和生成。例如,输入文字描述可以生成相应图像,用户还可以通过添加几何输入(如边界框、分割图或人体姿态)来控制生成图像的细节。此外,模型能够基于不同输入(如文字描述或语义分割图)进行图像检索。
未来展望
研究团队成员Amir Zamir在X平台上分享了这项工作。当被问及为何不支持音频模态时,Zamir表示这主要是数据问题,并认为他们的方法应适用于音频。他还指出,多模态模型的多任务学习能力取得了显著进展,但在迁移/涌现方面仍有很长的路要走。
媒体报道与资源
Andrew Ng的AI通讯《The Batch》也报道了4M-21,称其能力界限尚不明确,但为模型输出的精细控制打开了大门。用户可以通过提取各种模态来引导模型生成所需输出,例如输入提示、调色板、边缘或深度图,以生成整合这些元素的图像。
4M-21的代码和模型权重已在GitHub上开源,供研究人员和开发者使用。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。