微软提出通用解码器 X-Decoder，支持图像分割和语言分词

出品人：Towhee 技术团队王翔宇、顾梦佳X-Decoder 是一种通用解码模型，可以无缝实现像素级图像分割和语言分词。它的输入支持两种类型的查询：通用非语义查询和基于文本输入的语义查询，能够在同一语义空间中解码不同的像素和分词级别的输出。凭借新颖的设计，X-Decoder 首次提供了一种统一方式用于支持所有类型的图像分割和各种视觉语言任务。无需任何伪标签，在对有限的分割数据和数百万图像文本对的混合集进行预训练后，X-Decoder 表现出对广泛下游任务（零样本和微调设置）的强大可迁移性。值得注意的是，它在八个数据集上均实现了最优性能。

X-Decoder after pretraining supports all types of image segmentation tasks.X-Decoder 的框架设计遵循了编码器-解码器结构。它首先会使用一个图像编码器抽取出图片特征，然后使用文本编码器编码文本查询。图像特征、文本查询和多个隐查询在通过 X-Decoder 后，分别输出像素级别的掩码和分词级别的语义。此外，X-Decoder 实现了不同粒度的任务之间的无缝交互，并通过学习一个通用且丰富的像素级视觉语义理解空间而互惠互利。相关资料：代码地址：https://github.com/microsoft/...论文链接：https://arxiv.org/abs/2212.11270

微软提出通用解码器 X-Decoder，支持图像分割和语言分词

Zilliz

引用和评论

成本最高直降50倍! Zilliz Cloud Serverless Beta上线，限时免费，早用早省钱！

基于yolov5实现的AI智能盒子框架

18个常用的强化学习算法整理：从基础方法到高级模型的理论技术与代码实现

AIBrix 深度解读：字节跳动大模型推理的云原生实践

vLLM 实战教程汇总，从环境配置到大模型部署，中文文档追踪重磅更新

性能远超SAM系模型，苏黎世大学等开发通用3D血管分割基础模型

【Triton 教程】triton.heuristics