研究团队将三种SmolLM2变体

研究团队将三种SmolLM2变体（参数量分别为135M、360M和1.7B）与两种SigLIP视觉编码器进行配对：紧凑型93M参数的SigLIP-B/16和更大的428M参数的SigLIP-SO400M。研究发现，与大型多模态模型不同，小型模型中视觉与语言组件间的参数分配比例需要特别考量。

实验结果显示：当大型视觉编码器与最小规模语言模型（135M）配合时，模型性能显著下降，这表明编码器与语言模型之间存在不平衡的低效组合。对于中等规模语言模型（360M），采用更大的视觉编码器虽然提升了11.6%的性能，但这伴随着66%的参数量增加，因此从参数效率角度考虑，紧凑型编码器仍更具优势。只有在最大规模语言模型（1.7B）配置下，更大的视觉编码器参数增加比例降至约10%，此时大型视觉编码器的性能提升与参数增加达到较好平衡。高效视觉信息传递机制设计SmolVLM采用自注意力架构，将视觉编码器生成的视觉标记与文本标记连接后由语言模型共同处理。这种设计需要比SmolLM2原有2k标记限制更长的上下文处理能力，因为单张512×512分辨率图像经由SigLIP-B/16编码后就需要1024个标记。为解决这一挑战，研究者通过将RoPE基数从10k增加到273k以扩展模型的上下文处理能力，并在混合数据集上进行微调，这些数据包括长上下文数据（Dolma、The Stack）、短上下文源（FineWeb-Edu、DCLM）以及来自SmolLM2的数学内容。

研究结果表明：对于1.7B参数规模的语言模型，在16k标记处的微调性能保持稳定。较小规模模型（135M、360M）在上下文超过8k标记时性能显著下降。对2.2B参数SmolVLM的实验进一步证实，性能随上下文窗口增加至16k标记时持续提升。基于这些发现，SmolVLM最终采用了16k标记的上下文窗口，而较小变体则采用8k标记限制。最新的视觉-语言模型通常结合自注意力架构与标记压缩技术，以高效处理长序列并降低计算开销。像素重排（Pixel Shuffle，从空间到深度的重新排列）是一种特别有效的视觉压缩方法，最初为超分辨率任务提出，近期被Idefics3等模型采用。这种技术将空间特征重新排列到额外的通道维度，减少空间分辨率同时提高表示密度。

像素重排可将视觉标记总数减少r²倍（r为重排比例因子）。然而，过高的重排比例会将较大的空间区域压缩到单个标记中，从而损害需要精确空间定位的任务，如光学字符识别（OCR）。

不同模型规模下最佳像素重排因子对比（PS=2 vs. PS=4）。研究发现：大型模型如InternVL和Idefics3通常使用r = 2的重排比例，以平衡压缩效率与空间分辨率保真度。对比实验表明，较小规模的多模态模型反而受益于更激进的压缩比例（r = 4），这是因为减少的标记数量有效降低了自注意力计算开销，并显著改善了长上下文建模能力。图像与视频的高效编码策略在图像和视频处理中合理分配标记资源对高效多模态建模至关重要。图像通常需要较高分辨率和更多标记以保持视觉细节，而视频则需要在每帧使用较少标记以高效处理更长的时间序列。为此，研究者采用了图像分割策略，将高分辨率图像分成多个子图像，并结合原始图像的缩小版本。实验证明，这种方法能在不产生过多计算开销的前提下有效保持图像质量。然而，对于视频处理，实验发现诸如帧平均等压缩策略会显著降低模型性能。

实验结果显示：合并多个视频帧显著降低了OpenCompass-Video评测结果，特别是在较高的平均因子（2、4、8）条件下。基于这些发现，SmolVLM的最终设计中排除了帧平均策略，而是选择将视频帧重新缩放到视觉编码器的标准输入分辨率。