BATMAN:将双边注意力用于视频对象分割

2023-02-13
阅读 1 分钟
635
视频对象分割 (Video Object Segmentation,VOS) 是视频理解的基础。 基于 Transformer 的方法已经在半监督 VOS 上显示出显着的性能改进。 然而,现有的工作很难分割彼此靠近的相似物体。为此,BATMAN 提出了一种用于半监督 VOS 的新型双边注意力Transformer。大量实验验证了 BATMAN 架构的有效性,它在所有四个流行的 V...
封面图

DAAM:首次利用视觉语言学解释大型扩散模型

2023-02-10
阅读 1 分钟
920
大规模扩散神经网络代表了文本到图像生成的一个重要里程碑,但它们仍然缺乏可解释性分析。DAAM 对最近开源的模型 Stable Diffusion 进行了文本-图像归因分析。为了生成像素级属性图,DAAM 在去噪子网络中放大和聚合交叉注意力字像素分数。通过归因分析,DAAM 主要研究了如何将语法关系转化为视觉交互,并关注了扩散模型...

SparK 用稀疏掩码为卷积设计 Bert 预训练

2023-02-07
阅读 1 分钟
1k
稀疏掩码建模 (SparK) 是第一个 BERT-style 的预训练方法,无需修改主干即可直接在任何卷积网络上,克服了它们无法处理不规则的掩码输入。该框架遮盖图像的一部分并学习恢复它,通过预训练卷积网络编码器实现分层掩码图像建模。SparK 可以被直接用于任何卷积模型,无需主干修改。它在经典 (ResNet) 和现代 (ConvNeXt) 的...
封面图

DiffusionDet 用扩散模型解决目标检测

2023-02-06
阅读 1 分钟
1.7k
DiffusionDet 是一个新的目标检测框架,将目标检测建模为从噪声框到目标框的去噪扩散过程。在训练阶段,目标框从真值框扩散到随机分布,模型学习如何逆转这种向真值标注框添加噪声过程。在推理阶段,模型以渐进的方式将一组随机生成的目标框细化为输出结果。在包括 MS-COCO 和 LVIS 的基准测试中,DiffusionDet 证明了其...

MoBYv2AL :结合 BOYL 和 MoCo 的主动学习算法

2023-02-03
阅读 1 分钟
917
主动学习(AL),即查询学习,旨在从大量未标记的数据中抽取信息最丰富、最多样化的有效示例来查询它们的标签。然而当模型学习到的特征较为局限时,主动学习的整体选择也会受到影响,并累积偏差导致性能降低。为了解决这些问题,一种用于图像分类的新型自监督主动学习框架 MoBYv2AL 将最成功的自监督学习算法之一 MoBY ...

CMAE 结合对比学习和掩码,提高表征辨别力

2023-02-02
阅读 1 分钟
1.1k
出品人:Towhee 技术团队 王翔宇、顾梦佳掩码图像建模在各项视觉任务上都取得了可喜的成果,然而学习到的表征依然缺乏可辨别性。为了改善这个问题,一种新的自监督预训练方法 CMAE(Contrastive Masked Autoencoders)能够学习更全面、更有能力的视觉表征。 CMAE 统一并且利用了对比学习(CL)和掩码图像建模(MIM),以...

微软提出 TinyMIM,首次用掩码预训练改进小型 ViT

2023-02-02
阅读 1 分钟
1k
出品人:Towhee 技术团队 顾梦佳掩码图像建模(MIM)在预训练的大型视觉Transformer(ViTs)中表现强劲,然而实际生产中更实用的小模型却依然受益不显。为此,微软提出 TinyMIM 探索蒸馏技术,期望将MIM在大型预训练模型上的成功迁移到较小的模型。该方法系统地研究了蒸馏框架中的不同选项,包括蒸馏目标、损失、输入、...

MixMIM 创建混合图像,提出新型掩码方案

2023-01-31
阅读 1 分钟
895
商汤和港中文联合提出一种简单但有效的掩码图像建模(MIM)方法 MixMIM,通过创建混合图像利用BEiT和MAE的优点,又避免了它们的局限性。MixMIM 可以有效地学习高质量的视觉表示,也能被广泛应用于预训练的层次化视觉 Transformer,比如 Swin Transformer、PVT 等。MixMIM 还探索了轻量级架构,将 Swin Transformer 修改...
封面图

SimMIM:更简单的掩码图像建模

2023-01-30
阅读 1 分钟
1k
掩码图像建模(MIM)通常会将输入 token 的随机子集替换为一个特殊的掩码符号,目的是从损坏的图像重建原始图像 token。SimMIM 系统分析了该方法中的主要组件,从而提出了无需特殊设计、更为简单的掩码图像框架。将简化后的 MIM 应用到 ViT-B,其预训练模型在公开的图像数据集 ImageNet-1K 上能够实现 83.8% 的 top-1 微...

视觉模型 ConvNeXt V2,结合纯卷积与MAE

2023-01-20
阅读 1 分钟
1.6k
近年来以 ConvNeXt 为代表的现代 ConvNets 在各种视觉场景中都表现出了强大的性能。虽然这些模型最初是为使用 ImageNet 标签进行监督学习而设计的,但它们也可能受益于自监督学习技术,例如掩码自动编码器 (MAE) 。为了更好地结合ConvNeXt 和 MAE,ConvNeXt V2 提出了一个改进的网络架构,将全局响应归一化 (GRN) 层添加...
封面图

Transformer 再添一员,比 Swin 更强的 DiNAT

2023-01-19
阅读 1 分钟
1.6k
在视觉领域,除了常规 Transformer 的持续发展,分层的 Transformer 结构也因为其性能和易集成性获得了极大的关注。DiNA 注意力机制是 Neighborhood Attention(NA)的拓展,更加自然、灵活、高效。它可以捕获更多的全局上下文并以指数方式扩展感受域,而无需额外成本。DiNA Transformer 是基于两种注意力的新型分层视觉...

光神经网络ONN:直接对光信号进行神经网络处理

2023-01-18
阅读 1 分钟
1k
光学成像通常用于工业界和学术界的科学和技术应用。光学神经网络 (Optical neural networks,ONN) 提供了一个在模拟、光学领域处理数据的平台。 然而,基于 ONN 的传感器仅限于线性处理,但非线性是深度的先决条件,多层神经网络在许多任务上明显优于浅层神经网络。 目前的技术已经成功实现了用于图像传感的多层 ONN 预...
封面图

CuPL 利用大规模的语言模型,更高效地生成提示

2023-01-17
阅读 1 分钟
1.2k
出品人:Towhee 技术团队 顾梦佳开放词汇模型(比如CLIP)在推理过程中对自然语言指定的任意一组类别进行分类,是一种很有前途的图像分类新范例。这种称为“提示”的自然语言通常由一组手写模板组成。为了更高效且独立地生成更准确的提示,CuPL(通过语言模型创建自定义提示)将开放词汇模型与大型语言模型 (LLM) 相结合,...
封面图

Mega 改进序列模型,引入移动平均捕捉时空依赖

2023-01-16
阅读 1 分钟
888
Transformer 注意力机制的设计包括弱归纳偏置和复杂的二次计算,限制了它对长序列建模的应用。为了更好地使用单个模型捕捉序列数据中的长距离依赖,移动平均单头门控注意力(Mega)尝试沿时间维度,使用经典的指数滑动平均(EMA)方法引入偏差,并提出了一种具有线性复杂度的变体。通过在广泛的序列建模基准上进行实验,...
封面图

EfficientFormerV2 加速 ViT,更高效的移动端视觉模型

2023-01-13
阅读 1 分钟
1.2k
EfficientFormerV2 仿造卷积结构的 MobileNet,对 transformers 进行一系列针对移动端加速的设计和优化。模型的参数量和延迟对资源受限型的硬件来说至关重要,因此 EfficientFormerV2 结合了细粒度联合搜索策略,提出了一种具备低延迟和大小的高效网络。该网络在同等量级参数量和延迟下,其性能在公开的图像数据集 Image...
封面图

EfficientFormer 提升速度的同时保持性能,使 ViT 在移动端成为可能

2023-01-12
阅读 1 分钟
709
由于大量的参数和其模型设计(注意力机制),基于 ViT 的模型通常比轻量级卷积网络慢几倍。因此,为实时应用程序部署 ViT 特别具有挑战性,尤其是在资源受限的硬件(如移动设备)上。为了让 transformers 同时拥有高性能和速度,EfficientFormer 重新审视了 ViT 模型中使用的网络架构和运算符,引入一个维度一致的纯 Tra...

CLIPPO:纯图像的 CLIP,参数减半且更强大!

2023-01-11
阅读 1 分钟
1k
多模态模型变得越来越有效,部分原因在于统一的组件,例如 Transformer 架构。然而,多模态模型仍然经常包含许多特定于任务和模态的部分和训练过程。 例如,CLIP 通过对比损失训练独立的文本和图像塔。 CLIPPO 选择使用对比损失进行训练,尝试使用纯像素模型来执行图像、文本和多模式任务。 CLIPPO 执行基于图像的任务,...

DiT:Transformers 与扩散模型强强联手

2023-01-10
阅读 1 分钟
2.2k
扩散模型在图像生成领域有着难以撼动的地位,而其通常都选择了卷积 U-Net作为主干模型。那么在其他领域大杀四方的 Transformers 在扩散模型中是否还有用武之地呢?基于这一想法,DiT(Diffusion Transformer) 利用 transformer 结构探索了一种新的扩散模型。它不仅继承了 Transformer 模型类的优秀扩展特性,性能还优于...

微软提出通用解码器 X-Decoder,支持图像分割和语言分词

2023-01-09
阅读 1 分钟
1.1k
出品人:Towhee 技术团队 王翔宇、顾梦佳X-Decoder 是一种通用解码模型,可以无缝实现像素级图像分割和语言分词。 它的输入支持两种类型的查询:通用非语义查询和基于文本输入的语义查询,能够在同一语义空间中解码不同的像素和分词级别的输出。凭借新颖的设计,X-Decoder 首次提供了一种统一方式用于支持所有类型的图像...
封面图

汽车之家基于 Milvus 的向量检索平台实践

2022-12-20
阅读 5 分钟
1.7k
随着计算机技术及机器学习技术的发展,特征向量作为一种多媒体数据(文本、语音、图片、视频)的描述方式,逐渐成熟起来,而向量检索(向量相似计算)也逐渐成为一种通用的需求。
封面图

Milvus 2.1.x 到 Milvus 2.2.x 升级实践

2022-12-15
阅读 3 分钟
1.7k
近日,Milvus 2.2.0 发布,新版本里支持了许多激动人心的功能,包括:磁盘索引(DiskANN)、从文件中批量导入数据(bulk_insert)、基于角色的访问控制(RBAC)、集合生存时间(TTL)等。不少社区的小伙伴对新版本都已经跃跃欲试。不过与以往版本直接升级镜像的简单操作相比,由于 2.2 和 2.1 的元数据发生了变化,以及...
封面图

我们又重写了一个关键服务

2022-11-30
阅读 3 分钟
928
QueryCoord 是 Milvus 中查询集群的中心调度节点,在用户将一个 Collection Load 到内存中时,QueryCoord 负责将该 Collection 的 Segment 调度到 QueryNode 集群中,以支持后续的查询。
封面图

Milvus 编译环境演进

2022-11-17
阅读 7 分钟
1.7k
Milvus 代码库分为了 C++ 和 Go 两个部分,Go 部分负责系统主体架构、分布式系统、存储/查询链路等,C++ 部分负责查询、索引引擎专注于单机场景下的高性能,两者之间通过 cgo 接口调用。
封面图

Milvus 2.1 版本更新 - 简单可信赖、性能持续提升

2022-10-14
阅读 3 分钟
1.5k
继年初发布 Milvus 2.0 版本之后,在数百位 Milvus 社区贡献者六个月的共同努力下,我们在早些时候发布了 Milvus 2.1 版本,经过两个月的数次迭代,版本趋于稳定,被国内外头部厂商信任和选择使用。
封面图

如何设计一个面向未来的云原生数据库?

2022-09-14
阅读 7 分钟
1.8k
很荣幸我们最新的论文《Manu: A Cloud Native Vector Database Management System》被数据库领域国际顶会 VLDB'22 录用。这两天刚好在大会上分享了论文内容。正好趁热打铁写一篇文章,将梳理后的论文内容分享给大家,聊聊背后的设计与思考。
封面图

Zilliz 论文入选数据库顶会 VLDB'22

2022-09-08
阅读 2 分钟
1.6k
近日,Zilliz 技术团队最新数据库研究成果再获国际认可。面向向量数据管理而设计的云原生数据库系统 Milvus 2.0 论文《Manu: A Cloud Native Vector Database Management System》入选数据库顶级会议 VLDB'22。
封面图

Milvus 在 Likee 短视频去重业务中的实践

2022-06-20
阅读 2 分钟
1.5k
本篇内容主要介绍拥有全球 4 亿用户的视频直播公司 BIGO 如何利用向量搜索引擎 Milvus 进行海量短视频去重的工作。在 Milvus 向量搜索引擎的加速下,BIGO 旗下的短视频产品 Likee 能够将每次搜索都控制在 200ms 内,并且能够保证较高的召回率。同时,我们采用了横向扩展 Milvus 的方式来提高向量查询的吞吐量,来保证业...
封面图

图像审核产品“侦图” —— Milvus 在翼支付风控场景中的应用

2022-06-10
阅读 4 分钟
1.8k
本文从翼支付风控的实际应用场景出发,介绍了图像审核产品“侦图”如何检测虚假营业执照,店内门头照、相似模板照的识别问题,“侦图”产品通过引入 Milvus 来进行特征向量检索,在检索速度上,千万级别向量查询时,单条向量查询时间不高于 1 秒,批量查询的单条平均时间不高于 0.08 秒,极大节省了开发成本,并显著提高了系...
封面图

聊聊云原生数据库的一致性

2022-05-20
阅读 7 分钟
2.4k
我在和很多朋友讨论的过程中,发现大家对于 Consistency、Consensus、Replication 这些基本概念存在很多误解,也有很多人认为只有基于 Paxos/Raft 这类分布式一致性算法的日志复制才是分布式数据库的唯一正解。

Milvus 2.0 Knowhere 概览

2022-04-29
阅读 5 分钟
2.5k
编者按:本文详细介绍了 Milvus 2.0 系统的核心计算引擎 Knowhere,包括代码概览、如何添加索引,及对 Faiss 所做的优化。
封面图