头图

出品人:Towhee 技术团队 王翔宇、顾梦佳X-Decoder 是一种通用解码模型,可以无缝实现像素级图像分割和语言分词。 它的输入支持两种类型的查询:通用非语义查询和基于文本输入的语义查询,能够在同一语义空间中解码不同的像素和分词级别的输出。凭借新颖的设计,X-Decoder 首次提供了一种统一方式用于支持所有类型的图像分割和各种视觉语言任务。无需任何伪标签,在对有限的分割数据和数百万图像文本对的混合集进行预训练后,X-Decoder 表现出对广泛下游任务(零样本和微调设置)的强大可迁移性。值得注意的是,它在八个数据集上均实现了最优性能。
图片
X-Decoder after pretraining supports all types of image segmentation tasks.X-Decoder 的框架设计遵循了编码器-解码器结构。它首先会使用一个图像编码器抽取出图片特征,然后使用文本编码器编码文本查询。图像特征、文本查询和多个隐查询在通过 X-Decoder 后,分别输出像素级别的掩码和分词级别的语义。此外,X-Decoder 实现了不同粒度的任务之间的无缝交互,并通过学习一个通用且丰富的像素级视觉语义理解空间而互惠互利。相关资料:代码地址:https://github.com/microsoft/...论文链接:https://arxiv.org/abs/2212.11270


Zilliz
151 声望829 粉丝

Vector database for Enterprise-grade AI