AltCLIP：改变语言编码器，扩展语言功能

出品人：Towhee 技术团队张晨、顾梦佳

AltCLIP 提出了一种概念上简单有效的方法，以训练强大的双语或多语多模态表征模型。以 OpenAI 发布的预训练多模态表示模型 CLIP 为基础，AltCLIP 另外采用了预训练的多语言文本编码器 XLM-R，并通过一个由教师学习和对比学习组成的两阶段训练模式来调整语言和图像表示。实验结果表明，AltCLIP 在各种公开的图像数据集的一系列任务中均取得了最先进的性能，包括 ImageNet-CN、Flicker30k-CN、COCO-CN 和 XTD。此外，它在几乎所有任务上都与 CLIP 性能接近，这表示简单地更改 CLIP 中的文本编码器便能获得扩展功能，比如多语言理解。

The framework of AltCLIP.AltCLIP

在一个两阶段的框架下学习强大的双语语言-图像表示。在第一阶段，通过教师学习策略提炼从大规模预训练模型 CLIP 学到的知识。该阶段使用 CLIP 的文本编码器作为教师文本编码器，而将 XLM-R 模型在多语言数据上的预训练作为学生编码器。然后通过一个全连接层，统一 XLMR 模型与教师编码器的输出维度。在第二阶段，通过对比学习对相对较少的中文和英文文本-图像对进行模型训练。该阶段旨在通过对多语言文本-图像对的对比学习来进一步提高文本-图像的一致性。这里框架使用了基于 ViT 的图像编码器，并使用从另一阶段学到的学生文本编码器作为文本编码器。

AltCLIP：改变语言编码器，扩展语言功能

Zilliz

引用和评论

成本最高直降50倍! Zilliz Cloud Serverless Beta上线，限时免费，早用早省钱！

分享自制小工具：AutomateGPT – 在 ChatGPT 里批量执行任务

Vite4-MobileGPT：基于vue3+vant4移动端仿ChatGPT聊天模板

OpenAI API Key 获取并用GPT-4o 图像生成：使用 Node JS代码调用示例

PC版-vue3.5对接deepseek构建网页版AI流式输出聊天界面

manus 的替代品有哪些？使用LLM大模型技术做手机/网页/浏览器自动化操作技术汇总

快捷键打开某个窗口(如网页chatGPT)