Meta发布混合模态AI模型Chameleon
Meta的基础人工智能研究(FAIR)团队近日发布了Chameleon,这是一款能够理解和生成混合文本与图像内容的混合模态AI模型。在人类评委的实验中,Chameleon生成的输出在51.6%的试验中优于GPT-4,在60.4%的试验中优于Gemini Pro。
模型架构与训练
Chameleon与许多混合图像-文本AI模型不同,后者通常使用独立的编码器和解码器处理两种模态。Chameleon则采用单一的基于标记的文本和图像表示,并在混合图像和文本序列上进行端到端的训练。Meta训练了两种规模的模型:Chameleon-7B(70亿参数)和Chameleon-34B(340亿参数)。两种模型均在超过4万亿个混合文本和图像标记上进行预训练,并在较小的数据集上进行微调以实现对齐和安全性。
性能与创新
在多个基准测试中,Meta评估了Chameleon-34B的表现,发现其在视觉问答(VQA)和图像描述(Image Captioning)任务上达到了最先进的水平。Meta指出,Chameleon通过将图像量化为离散标记并从混合模态数据中从头开始训练,能够以其他模型无法实现的方式联合推理图像和文本。同时,Chameleon引入了新颖的技术,解决了早期融合模型在稳定性和可扩展性训练中的关键优化和架构设计挑战。
训练挑战与解决方案
Meta团队指出,当模型参数超过80亿或数据集标记超过1万亿时,训练Chameleon变得“具有挑战性”,主要原因是模型的不稳定性。研究人员不得不对标准的Transformer架构进行修改,以解决这些问题。特别是,他们发现由于模型权重在两种输入模态之间共享,“每种模态都会试图与另一种模态竞争”,最终导致向量范数超出模型使用的16位浮点表示范围。解决方案是在模型架构中应用额外的归一化操作。
推理挑战与解决方案
Chameleon的自回归输出生成也带来了“独特”的性能挑战。首先,生成混合模式输出需要为每种模式采用不同的解码策略,因此输出标记必须从GPU复制到CPU以进行程序控制流。此外,由于模型可能被要求生成单一模式输出(例如仅文本),这要求模型能够屏蔽或忽略其他模态的标记。为了解决这些问题,Meta为模型实现了自定义的推理管道。
行业专家评论
Chameleon的共同作者Armen Aghajanyan在X平台上表示,Chameleon的一个核心学习是:“模态的预期形式本身就是一种模态。视觉感知和视觉生成是两种独立的模态,必须区别对待;因此,使用离散标记进行感知是错误的。”AI研究员Nando de Freitas则指出,Chameleon的架构与DeepMind的Gato模型相似,并质疑“这是否将成为MIMO(多模态输入多模态输出模型)的终极方法,还是我们需要尝试其他方法?”
模型发布与安全考虑
尽管Meta出于安全考虑没有公开发布Chameleon,但他们发布了一个支持混合模式输入但无法生成图像输出的修改版本。这些模型可在“仅限研究许可”下申请使用。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。