SigLIP 2:多语言视觉语言编码器的新突破
🕙发布时间:2025-02-25
更多LLM架构文章:LLM架构专栏
近日热文:
1. 全网最全的神经网络数学原理(代码和公式)直观解释
2. 大模型进化史:从Transformer到DeepSeek-R1的AI变革之路
3. 2W8000字深度剖析25种RAG变体:全网最全~没有之一
4. 3W6000字了解大模型LLM:部署、优化与框架
知乎【柏企】
公众号【柏企科技说】【柏企阅文】
SigLIP 2是全新的多语言视觉语言编码器系列,它在原始SigLIP的基础上进行了改进,增加了基于字幕的预训练、自我监督学习(自我蒸馏、掩蔽预测)以及在线数据管理。因此,SigLIP 2模型在零样本分类、图像文本检索,以及视觉语言模型(VLMs)的视觉表示提取方面都取得了卓越的性能。在定位和密集预测任务中,它们也展现出显著的进步,并且能够支持多种分辨率,同时保持纵横比。
SigLIP 2有四种型号尺寸:ViT-B(86M)、L(303M)、So400m(400M)和g(1B) 。
一、方法
(一)架构、训练数据、优化器
SigLIP 2保留了原始SigLIP的架构,这使得用户能够轻松更换编码器权重。它采用带有学习位置嵌入的ViT架构,除了最大的视觉模型搭配So400m大小的文本编码器外,其他图像和文本编码器都相同。其表示使用基于注意力的MAP头进行池化。文本输入上限为64个标记(使用多语言Gemma标记器(256k词汇表)进行标记)。
用于训练的是WebLI数据集(涵盖109种语言的100亿张图像和120亿个替代文本)。训练数据中90%是英语,10%是非英语。该模型在2048个TPUv5e芯片上进行训练,采用完全分片的数据并行策略。
(二)使用Sigmoid损失和解码器进行训练
SigLIP 2在预训练期间结合了SigLIP和LocCa损失。与使用对比损失的CLIP不同,SigLIP将图像 - 文本匹配视为二元分类问题,使用逻辑回归训练嵌入。
LocCa给未池化的视觉编码器表示添加了一个带有交叉注意力的transformer解码器。这个解码器的层数比文本编码器少,它训练三项任务:图像字幕、引用表达式预测和接地字幕。使用n - gram提取和开放词汇检测自动标记区域 - 标题对。
(三)使用自蒸馏和掩蔽预测进行训练
在局部到全局一致性损失中,受SILC的启发,视觉编码器充当学生网络,处理局部(部分)图像补丁,并学习匹配教师网络生成的完整图像表示。教师的参数使用学生过去参数的指数移动平均线进行更新。作者使用一名教师和8名学生。
在掩蔽预测损失中,基于TIPS,学生模型中50%的嵌入图像块会被掩码标记替换。然后,训练学生模型去匹配教师在掩蔽位置的特征。与侧重于完整图像表示的局部到全局一致性损失不同,这种损失适用于单个图像块特征。教师和学生都能看到相同的全局图像。
这些额外的损失会在训练完成80%时添加,教师从学生模型初始化,而额外的参数(heads、mask tokens和optimizer参数)则随机初始化。原始图像用于计算SigLIP和LocCa损失,而增强视图用于新的损失,以确保图像 - 文本对齐不受影响。
(四)适应不同的分辨率
为了获得多种分辨率的固定分辨率检查点,SigLIP 2在训练完成95%时,从原始检查点(序列长度256,补丁大小16)恢复训练。调整位置嵌入的大小以匹配目标序列长度。训练以新的分辨率继续进行,并应用所有损失函数。
NaFlex扩展了FlexiViT和NaViT的理念,允许单个ViT模型支持多个预定义的序列长度,同时还能按图像的原始纵横比处理图像。这最大限度地减少了纵横比失真,这对于OCR和文档图像处理等任务特别有用。
NaFlex调整图像大小,使其尺寸保持为补丁大小的倍数。然后,调整大小后的图像将被拆分为块,如果序列长度小于目标长度,则添加块坐标和填充信息。位置嵌入通过抗锯齿双线性插值调整大小,以匹配调整大小后输入的非方形补丁网格。
NaFlex训练从默认的SigLIP 2检查点开始,这些检查点最初是使用非纵横比保留的方式调整大小为256px(序列长度256)进行训练的。在训练完成90%时,它切换到保留纵横比的调整大小方式,并从128、256、576、784、1024中均匀采样序列长度。为了保持复杂性可控,在此训练期间不应用自蒸馏和掩蔽预测损失。
(五)通过主动数据管理进行蒸馏
为了提高最小固定分辨率模型的性能,SigLIP 2在短暂的微调阶段(只有sigmoid图像文本损失的40亿个示例)应用知识蒸馏。
作者使用ACID方法进行隐式的“数据蒸馏”。在每个训练步骤中,教师模型和当前学习者模型都会根据样本的“可学习性”对样本进行评分,从更大的超级批次中选择信息量最大的批次。然而,不是使用两个教师模型,而是首先基于来自精选高质量数据集的10亿个示例对单个强大的教师模型进行微调。这种经过微调的教师模型,将不同的预训练知识与高质量的精选数据相结合,然后用于ACID中。这实现了隐式知识转移,获得了与没有显式softmax蒸馏的ACED相当的结果。
二、实验
尽管SigLIP 2支持多种语言,但在零样本分类和图像文本检索方面,它的表现优于SigLIP和其他开放权重基线模型。它显著提高了召回率,尤其是对于经过蒸馏的较小模型。
NaFlex变体在OCR/基于文档的检索任务上表现出色,但在自然图像基准测试中,标准B尺寸的模型表现优于NaFlex,这可能是因为其蒸馏步骤。
通过将SigLIP 2与Gemma 2 2B大语言模型(LLM)集成,并在5000万个多模态示例上进行训练,对SigLIP 2在视觉语言模型中的视觉表示提取能力进行评估。结果表明,在所有分辨率和模型大小上,SigLIP 2都优于SigLIP。
SigLIP 2在密集预测和定位任务中也展现出强大的性能:
- 在语义分割、深度估计和表面法线估计方面,使用线性层或DPT解码器评估的SigLIP 2,其性能明显优于包括SigLIP在内的以往CLIP型视觉编码器。
- 在开放词汇分割方面,SigLIP 2超越了SigLIP,甚至超过了更大的OpenCLIP G/14模型。
- 在引用表达式理解方面,SigLIP 2的性能优于SigLIP、CLIP和图像标题预训练模型。不过,它的表现不如LocCa,这很可能是由于SigLIP 2进行的是多语言预训练,而LocCa使用的是纯英语数据。
- 在开放词汇检测方面,SigLIP 2在SigLIP的基础上有所改进,在LVIS稀有类别中获得了最显著的提升。它还取得了比OWL - ViT更好的结果,这很可能是因为它使用的是SigLIP而不是CLIP。
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。