CLIPPO:纯图像的 CLIP,参数减半且更强大!

出品人:Towhee 技术团队 张晨、顾梦佳

多模态模型变得越来越有效,部分原因在于统一的组件,例如 Transformer 架构。然而,多模态模型仍然经常包含许多特定于任务和模态的部分和训练过程。 例如,CLIP 通过对比损失训练独立的文本和图像塔。 CLIPPO 选择使用对比损失进行训练,尝试使用纯像素模型来执行图像、文本和多模式任务。 CLIPPO 执行基于图像的任务,例如检索和 zero-shot 图像分类,几乎与 CLIP 一样好,参数数量只有一半,并且没有文本特定的塔或嵌入。 当通过图像-文本对比学习和下一句对比学习联合训练时,CLIPPO 可以在自然语言理解任务上表现出色,没有任何词级损失(语言建模或掩码语言建模),优于基于像素的先前工作。 令人惊讶的是,CLIPPO 只需将问题和图像一起渲染,就可以在视觉问答中获得很好的准确性。 由于 CLIPPO 不需要tokenizer,它可以在不修改的情况下在多语言多模态检索上实现强大的性能。

CLIP vs. CLIPPOCLIP 在具有对比目标的图像/替代文本对上训练单独的图像和文本编码器,每个编码器都具有特定于模态的预处理和嵌入。 而 CLIPPO 使用单个编码器来处理常规图像和渲染为图像的文本。CLIPPO 通过将替代文本渲染为图像,使用共享视觉编码器(在两个独立的前向传递中)对生成的图像对进行编码,并应用与 CLIP 相同的训练目标,来训练具有同等能力的纯像素模型。

相关资料:
代码地址:https://github.com/google-res...
论文链接:Image-and-Language Understanding from Pixels Only


Milvus
我们的愿景是 reinvent data science ,重新定义数据科学。 成立于 2016 年,ZILLIZ 致力于将数据科学与...

Vector database for Enterprise-grade AI

101 声望
805 粉丝
0 条评论
推荐阅读
AI 未来已至,向量数据库站在新的节点上
在刚刚结束的 NVIDIA GTC Keynote 中,这句话被 NVIDIA CEO 黄仁勋反复提及,长达 1 个多小时的分享中,生成式 AI 相关的内容占据了绝大部分比重。他表示,生成式 AI 的火热能力为企业带来了挑战,因而此次 Keyno...

Zilliz

Matlab实现彩色图像的转换 平滑 锐化与分割
文章和代码以及样例图片等相关资源,已经归档至【Github仓库:digital-image-processing-matlab】或者公众号【AIShareLab】回复 数字图像处理 也可获取。目的使用 RGB、索引和灰度级图像间转换的函数掌握彩色图像...

YOLO阅读 445

EfficientFormer 提升速度的同时保持性能,使 ViT 在移动端成为可能
由于大量的参数和其模型设计(注意力机制),基于 ViT 的模型通常比轻量级卷积网络慢几倍。因此,为实时应用程序部署 ViT 特别具有挑战性,尤其是在资源受限的硬件(如移动设备)上。为了让 transformers 同时拥...

Zilliz阅读 421

图像的滤波与图像增强的Matlab实现
文章和代码以及样例图片等相关资源,已经归档至【Github仓库:digital-image-processing-matlab】或者公众号【AIShareLab】回复 数字图像处理 也可获取。目的了解 MATLAB 工具箱中的滤波器。掌握空间滤波学会对图...

YOLO阅读 411

AI 脸部美容,一键让你变瘦变美变老变年轻
随着这部分技术的开源,会有越来越多的应用,当然我觉得前景更好的是用户可以先通过 AI 技术找到自己最美的样子,然后照着这个样子去改变自己,减肥也好锻炼也好,健康餐也好,让自己更加的完美

tiny极客1阅读 183评论 1

封面图
图像分割(一)—图像分割小结+单阈值大津法
图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。也就是说图像分割将图像细分为一个个子区域或物体,细分的程度取决于要解决的的问题,当我们得到感兴趣区域时,分割就停...

胡子老爷爷阅读 368

Vector database for Enterprise-grade AI

101 声望
805 粉丝
宣传栏