CLIPPO:纯图像的 CLIP,参数减半且更强大!

出品人:Towhee 技术团队 张晨、顾梦佳

多模态模型变得越来越有效,部分原因在于统一的组件,例如 Transformer 架构。然而,多模态模型仍然经常包含许多特定于任务和模态的部分和训练过程。 例如,CLIP 通过对比损失训练独立的文本和图像塔。 CLIPPO 选择使用对比损失进行训练,尝试使用纯像素模型来执行图像、文本和多模式任务。 CLIPPO 执行基于图像的任务,例如检索和 zero-shot 图像分类,几乎与 CLIP 一样好,参数数量只有一半,并且没有文本特定的塔或嵌入。 当通过图像-文本对比学习和下一句对比学习联合训练时,CLIPPO 可以在自然语言理解任务上表现出色,没有任何词级损失(语言建模或掩码语言建模),优于基于像素的先前工作。 令人惊讶的是,CLIPPO 只需将问题和图像一起渲染,就可以在视觉问答中获得很好的准确性。 由于 CLIPPO 不需要tokenizer,它可以在不修改的情况下在多语言多模态检索上实现强大的性能。

CLIP vs. CLIPPOCLIP 在具有对比目标的图像/替代文本对上训练单独的图像和文本编码器,每个编码器都具有特定于模态的预处理和嵌入。 而 CLIPPO 使用单个编码器来处理常规图像和渲染为图像的文本。CLIPPO 通过将替代文本渲染为图像,使用共享视觉编码器(在两个独立的前向传递中)对生成的图像对进行编码,并应用与 CLIP 相同的训练目标,来训练具有同等能力的纯像素模型。

相关资料:
代码地址:https://github.com/google-res...
论文链接:Image-and-Language Understanding from Pixels Only


Milvus
我们的愿景是 reinvent data science ,重新定义数据科学。 成立于 2016 年,ZILLIZ 致力于将数据科学与...

Vector database for Enterprise-grade AI

124 声望
808 粉丝
0 条评论
推荐阅读
单卡轻松打造 ChatGPT 竞争者“原驼”,QLoRA 革新大语言模型微调技术
由 OpenAI 推出的聊天机器人ChatGPT 爆火,带动 AI 受到了前所未有的关注。随之市面上也涌现出了各类开源的大语言模型(LLM),其中 LLaMA “羊驼系列”最受关注、最具潜力。LLaMA 是由 Meta AI 发布的一个开放且高...

Zilliz阅读 114

StyleGAN 生成 AI 虚拟人脸,再也不怕侵犯肖像权
GAN 是机器学习中的生成性对抗网络,目标是合成与真实图像无法区分的人工样本,如图像。即改变人脸图像中的特定特征,如姿势、脸型和发型,GAN 的主要挑战就是如何图像变得更加逼真。

tiny极客1阅读 416评论 1

封面图
用 Python 和 OpenCV 实现图像处理基础
OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉库,为 Python 和其他编程语言提供了丰富的图像处理功能。在本文中,我们将介绍如何使用 Python 和 OpenCV 实现图像的基本处理操作,如读取...

小小张说故事阅读 862

封面图
【图搜系列之多模态检索实战篇】基于表征大模型的多模态检索系统
说起表征模型在图搜/多模态检索系统中的作用,可以用“核心作用”来形容。其主要目的是将图片和文本转化成特征向量,有了特征向量才得以进行向量检索索引的构建。模型提取的特征向量对于图片/文本等内容的表征是否...

阿里云开发者阅读 819

SLBR通过自校准的定位和背景细化来去除可见的水印
本文简要介绍了论文“Visible Watermark Removal via Self-calibrated Localization and Background Refinement ”的相关工作。在图像上叠加可见的水印,为解决版权问题提供了一种强大的武器。现代的水印去除方法可...

合合技术团队1阅读 336

封面图
Matlab实现图像压缩
1. 理解图像压缩的相关概念及图像压缩的主要原则和目的;2. 掌握霍夫曼编码3. 掌握几种常见的图像压缩编码方法4. 利用 MATLAB 程序进行图像压缩

YOLO1阅读 324评论 1

单阈值大津法
大津法属于全局阈值方法中的一种,即是最大类间方差法 大津法主要原理在于会自动找出一个阈值 使得分割后的两部分类间方差最大 适用于有双波峰的图像,大津法作为图像分割中阈值选取的常用算法,计算简单,不受图...

胡子老爷爷阅读 678

Vector database for Enterprise-grade AI

124 声望
808 粉丝
宣传栏