SigLIP 2 是一个新型多语言视觉-语言编码器系列,通过整合基于字幕的预训练、自监督学习机制(包括自蒸馏和掩码预测)以及在线数据管理策略,对原始 SigLIP 模型进行了显著改进。这些优化使 SigLIP 2 在零样本分类、图像-文本检索以及为视觉语言模型(VLM)提供视觉表示提取方面均取得了卓越性能。模型在定位和密集预测任务中展现出明显提升,同时支持多种分辨率处理,并能保持图像原始纵横比。
SigLIP 2 提供四种模型规格:ViT-B (86M)、L (303M)、So400m (400M) 和 g (1B)。
架构、训练数据、优化器
SigLIP 2 保留了原始 SigLIP 的基础架构,使用户能够方便地交换编码器权重。模型采用具有可学习位置嵌入的 ViT 架构,图像和文本编码器结构相同,唯一例外是最大规格的视觉模型,它与 So400m 规格的文本编码器配对使用。表示向量通过基于注意力机制的 MAP 头进行池化处理。文本输入长度限制为 64 个 tokens(使用多语言 Gemma tokenizer,词汇量为 256k)。
训练数据采用 WebLI 数据集,包含 100 亿张图像和 120 亿条跨越 109 种语言的 alt-texts。训练数据混合比例为 90% 英语和 10% 非英语内容。模型训练在 2048 个 TPUv5e 芯片上进行,采用完全分片的数据并行策略。
使用 Sigmoid 损失和解码器进行训练
SigLIP 2 在预训练阶段结合了 SigLIP 和 LocCa 损失函数。与 CLIP 使用对比损失不同,SigLIP 将图像-文本匹配问题视为二元分类任务,通过逻辑回归方式训练嵌入表示。
LocCa 为未池化的视觉编码器表示增加了一个带有交叉注意力机制的 transformer 解码器。该解码器层数少于文本编码器,主要训练三项任务:图像字幕生成、指代表达式预测和有根据的字幕生成。区域-字幕对通过 n-gram 提取技术和开放词汇检测方法自动标记生成。
使用自蒸馏和掩码预测进行训练
在局部到全局一致性损失中,受 SILC 研究启发,视觉编码器承担学生网络角色,处理局部(部分)图像块,并学习匹配由教师网络生成的完整图像表示。教师参数通过学生过去参数的指数移动平均值进行更新。研究团队采用一个教师和八个学生的配置。
在掩码预测损失中,基于 TIPS 方法,学生模型中 50% 的嵌入图像块被替换为掩码 tokens。随后训练学生模型以匹配教师在掩码位置的特征表示。与第一个损失(侧重于完整图像表示)不同,此损失函数针对单个逐块特征应用。教师和学生模型均接收相同的全局图像输入。
这些额外的损失函数在训练完成 80% 时引入,教师模型从学生模型初始化,而额外参数(头部、掩码 tokens 和优化器参数)采用随机初始化。原始图像用于计算 SigLIP 和 LocCa 损失,增强视图则用于新引入的损失函数,确保图像-文本对齐不受干扰。
适应不同的分辨率
为获取支持多分辨率的固定分辨率检查点,SigLIP 2 从原始检查点(序列长度 256,patch size 16)恢复训练,在训练完成 95% 时进行调整。模型会根据目标序列长度调整位置嵌入大小,并在新分辨率下继续训练,同时应用所有损失函数。
NaFlex 技术扩展了 FlexiViT 和 NaViT 的理念,使单个 ViT 模型能够支持多个预定义序列长度,同时保持图像原始纵横比处理。这种方法最大程度减少了纵横比失真,对于 OCR 和文档图像处理等任务尤为重要。
NaFlex 首先调整图像尺寸,确保其维度为 patch size 的整数倍。调整后的图像被分割成 patch,如果序列长度小于目标长度,则添加包含 patch 坐标和填充信息的数据。使用抗锯齿双线性方法调整位置嵌入大小,以匹配调整后输入的非正方形 patch 网格。
NaFlex 训练从默认 SigLIP 2 检查点开始,这些检查点初始阶段使用非纵横比保持的方式调整至 256px(序列长度 256)进行训练。在训练完成 90% 时,切换至纵横比保持的调整方式,并从 128、256、576、784、1024 序列长度中均匀采样。
为保持复杂度可管理,自蒸馏和掩码预测损失在此训练阶段不予应用。
通过主动数据管理进行蒸馏
为提升最小规格固定分辨率模型的性能,SigLIP 2 在短期微调阶段应用知识蒸馏技术(4b 样本,仅包含 sigmoid 图像-文本损失)。
研究团队采用 ACID 方法实现隐式"通过数据蒸馏"。每个训练步骤中,教师模型和当前学习者模型基于样本"可学习性"进行评分,从更大的超级批次中选择信息量最大的批次。然而,不同于传统双教师方法,研究人员首先基于精选高质量数据集的 1B 样本对单个强大教师模型进行微调。这一微调后的教师模型(融合不同预训练知识与高质量精选数据)用于 ACID 过程,实现隐式知识转移,达到与 ACED 相当的结果,而无需显式 softmax 蒸馏。
实验和结果
SigLIP 2 在零样本分类和图像-文本检索任务上表现优于 SigLIP 及其他开源基线模型,尽管同时支持多语言处理。模型显著提高了检索召回率,特别是对于通过蒸馏优化的小规格模型。
NaFlex 变体在 OCR/文档为基础的检索任务中表现卓越,但对于自然图像基准测试,标准 B 规格模型性能优于 NaFlex,这可能源于其蒸馏步骤的影响。
通过将 SigLIP 2 与 Gemma 2 2B LLM 集成并在 50M 多模态样本上训练,研究团队评估了 SigLIP 2 在 VLM 中的视觉表示提取能力。结果表明,SigLIP 2 在所有分辨率和模型规格上均优于原始 SigLIP。
SigLIP 2 在密集预测和定位任务中展现出强大性能:
- 在语义分割、深度估计和表面法线估计任务中,SigLIP 2 使用线性层或 DPT 解码器进行评估,其性能明显优于以往 CLIP 风格的视觉编码器,包括 SigLIP。
- 在开放词汇分割任务上,SigLIP 2 超越了 SigLIP 甚至规格更大的 OpenCLIP G/14 模型。
- 在指代表达式理解方面,SigLIP 2 优于 SigLIP、CLIP 和图像字幕预训练模型。然而,其性能不及 LocCa,这很可能是由于 SigLIP 2 的多语言预训练策略与 LocCa 仅使用英语数据的差异所致。
- 在开放词汇检测任务中,SigLIP 2 改进了 SigLIP 的表现,在 LVIS 稀有类别上获得最显著提升。它还优于 OWL-ViT,这很可能归功于使用 SigLIP 而非 CLIP 作为基础架构。
论文地址:
https://avoid.overfit.cn/post/8d325c653acb4c3f8a1e83c649551f6a
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。