Milvus - SegmentFault 思否

BATMAN：将双边注意力用于视频对象分割

2023-02-13

阅读 1 分钟

757

视频对象分割 (Video Object Segmentation，VOS) 是视频理解的基础。基于 Transformer 的方法已经在半监督 VOS 上显示出显着的性能改进。然而，现有的工作很难分割彼此靠近的相似物体。为此，BATMAN 提出了一种用于半监督 VOS 的新型双边注意力Transformer。大量实验验证了 BATMAN 架构的有效性，它在所有四个流行的 V...

封面图

DAAM：首次利用视觉语言学解释大型扩散模型

2023-02-10

阅读 1 分钟

1.1k

大规模扩散神经网络代表了文本到图像生成的一个重要里程碑，但它们仍然缺乏可解释性分析。DAAM 对最近开源的模型 Stable Diffusion 进行了文本-图像归因分析。为了生成像素级属性图，DAAM 在去噪子网络中放大和聚合交叉注意力字像素分数。通过归因分析，DAAM 主要研究了如何将语法关系转化为视觉交互，并关注了扩散模型...

SparK 用稀疏掩码为卷积设计 Bert 预训练

2023-02-07

阅读 1 分钟

1.3k

稀疏掩码建模 (SparK) 是第一个 BERT-style 的预训练方法，无需修改主干即可直接在任何卷积网络上，克服了它们无法处理不规则的掩码输入。该框架遮盖图像的一部分并学习恢复它，通过预训练卷积网络编码器实现分层掩码图像建模。SparK 可以被直接用于任何卷积模型，无需主干修改。它在经典 (ResNet) 和现代 (ConvNeXt) 的...

封面图

DiffusionDet 用扩散模型解决目标检测

2023-02-06

阅读 1 分钟

2k

DiffusionDet 是一个新的目标检测框架，将目标检测建模为从噪声框到目标框的去噪扩散过程。在训练阶段，目标框从真值框扩散到随机分布，模型学习如何逆转这种向真值标注框添加噪声过程。在推理阶段，模型以渐进的方式将一组随机生成的目标框细化为输出结果。在包括 MS-COCO 和 LVIS 的基准测试中，DiffusionDet 证明了其...

MoBYv2AL ：结合 BOYL 和 MoCo 的主动学习算法

2023-02-03

阅读 1 分钟

1.1k

主动学习（AL），即查询学习，旨在从大量未标记的数据中抽取信息最丰富、最多样化的有效示例来查询它们的标签。然而当模型学习到的特征较为局限时，主动学习的整体选择也会受到影响，并累积偏差导致性能降低。为了解决这些问题，一种用于图像分类的新型自监督主动学习框架 MoBYv2AL 将最成功的自监督学习算法之一 MoBY ...

CMAE 结合对比学习和掩码，提高表征辨别力

2023-02-02

阅读 1 分钟

1.4k

出品人：Towhee 技术团队王翔宇、顾梦佳掩码图像建模在各项视觉任务上都取得了可喜的成果，然而学习到的表征依然缺乏可辨别性。为了改善这个问题，一种新的自监督预训练方法 CMAE（Contrastive Masked Autoencoders）能够学习更全面、更有能力的视觉表征。 CMAE 统一并且利用了对比学习（CL）和掩码图像建模（MIM），以...

微软提出 TinyMIM，首次用掩码预训练改进小型 ViT

2023-02-02

阅读 1 分钟

1.2k

出品人：Towhee 技术团队顾梦佳掩码图像建模（MIM）在预训练的大型视觉Transformer（ViTs）中表现强劲，然而实际生产中更实用的小模型却依然受益不显。为此，微软提出 TinyMIM 探索蒸馏技术，期望将MIM在大型预训练模型上的成功迁移到较小的模型。该方法系统地研究了蒸馏框架中的不同选项，包括蒸馏目标、损失、输入、...

MixMIM 创建混合图像，提出新型掩码方案

2023-01-31

阅读 1 分钟

1.1k

商汤和港中文联合提出一种简单但有效的掩码图像建模（MIM）方法 MixMIM，通过创建混合图像利用BEiT和MAE的优点，又避免了它们的局限性。MixMIM 可以有效地学习高质量的视觉表示，也能被广泛应用于预训练的层次化视觉 Transformer，比如 Swin Transformer、PVT 等。MixMIM 还探索了轻量级架构，将 Swin Transformer 修改...

封面图

SimMIM：更简单的掩码图像建模

2023-01-30

阅读 1 分钟

1.4k

掩码图像建模（MIM）通常会将输入 token 的随机子集替换为一个特殊的掩码符号，目的是从损坏的图像重建原始图像 token。SimMIM 系统分析了该方法中的主要组件，从而提出了无需特殊设计、更为简单的掩码图像框架。将简化后的 MIM 应用到 ViT-B，其预训练模型在公开的图像数据集 ImageNet-1K 上能够实现 83.8% 的 top-1 微...

视觉模型 ConvNeXt V2，结合纯卷积与MAE

2023-01-20

阅读 1 分钟

1.8k

近年来以 ConvNeXt 为代表的现代 ConvNets 在各种视觉场景中都表现出了强大的性能。虽然这些模型最初是为使用 ImageNet 标签进行监督学习而设计的，但它们也可能受益于自监督学习技术，例如掩码自动编码器 (MAE) 。为了更好地结合ConvNeXt 和 MAE，ConvNeXt V2 提出了一个改进的网络架构，将全局响应归一化 (GRN) 层添加...

封面图

Transformer 再添一员，比 Swin 更强的 DiNAT

2023-01-19

阅读 1 分钟

1.9k

在视觉领域，除了常规 Transformer 的持续发展，分层的 Transformer 结构也因为其性能和易集成性获得了极大的关注。DiNA 注意力机制是 Neighborhood Attention（NA）的拓展，更加自然、灵活、高效。它可以捕获更多的全局上下文并以指数方式扩展感受域，而无需额外成本。DiNA Transformer 是基于两种注意力的新型分层视觉...

光神经网络ONN：直接对光信号进行神经网络处理

2023-01-18

阅读 1 分钟

1.3k

光学成像通常用于工业界和学术界的科学和技术应用。光学神经网络 (Optical neural networks，ONN) 提供了一个在模拟、光学领域处理数据的平台。然而，基于 ONN 的传感器仅限于线性处理，但非线性是深度的先决条件，多层神经网络在许多任务上明显优于浅层神经网络。目前的技术已经成功实现了用于图像传感的多层 ONN 预...

封面图

CuPL 利用大规模的语言模型，更高效地生成提示

2023-01-17

阅读 1 分钟

1.4k

出品人：Towhee 技术团队顾梦佳开放词汇模型（比如CLIP）在推理过程中对自然语言指定的任意一组类别进行分类，是一种很有前途的图像分类新范例。这种称为“提示”的自然语言通常由一组手写模板组成。为了更高效且独立地生成更准确的提示，CuPL（通过语言模型创建自定义提示）将开放词汇模型与大型语言模型 (LLM) 相结合，...

封面图

Mega 改进序列模型，引入移动平均捕捉时空依赖

2023-01-16

阅读 1 分钟

1.1k

Transformer 注意力机制的设计包括弱归纳偏置和复杂的二次计算，限制了它对长序列建模的应用。为了更好地使用单个模型捕捉序列数据中的长距离依赖，移动平均单头门控注意力（Mega）尝试沿时间维度，使用经典的指数滑动平均（EMA）方法引入偏差，并提出了一种具有线性复杂度的变体。通过在广泛的序列建模基准上进行实验，...

封面图

EfficientFormerV2 加速 ViT，更高效的移动端视觉模型

2023-01-13

阅读 1 分钟

1.5k

EfficientFormerV2 仿造卷积结构的 MobileNet，对 transformers 进行一系列针对移动端加速的设计和优化。模型的参数量和延迟对资源受限型的硬件来说至关重要，因此 EfficientFormerV2 结合了细粒度联合搜索策略，提出了一种具备低延迟和大小的高效网络。该网络在同等量级参数量和延迟下，其性能在公开的图像数据集 Image...

封面图

EfficientFormer 提升速度的同时保持性能，使 ViT 在移动端成为可能

2023-01-12

阅读 1 分钟

830

由于大量的参数和其模型设计（注意力机制），基于 ViT 的模型通常比轻量级卷积网络慢几倍。因此，为实时应用程序部署 ViT 特别具有挑战性，尤其是在资源受限的硬件（如移动设备）上。为了让 transformers 同时拥有高性能和速度，EfficientFormer 重新审视了 ViT 模型中使用的网络架构和运算符，引入一个维度一致的纯 Tra...

CLIPPO：纯图像的 CLIP，参数减半且更强大！

2023-01-11

阅读 1 分钟

1.3k

多模态模型变得越来越有效，部分原因在于统一的组件，例如 Transformer 架构。然而，多模态模型仍然经常包含许多特定于任务和模态的部分和训练过程。例如，CLIP 通过对比损失训练独立的文本和图像塔。 CLIPPO 选择使用对比损失进行训练，尝试使用纯像素模型来执行图像、文本和多模式任务。 CLIPPO 执行基于图像的任务，...

DiT：Transformers 与扩散模型强强联手

2023-01-10

阅读 1 分钟

2.6k

扩散模型在图像生成领域有着难以撼动的地位，而其通常都选择了卷积 U-Net作为主干模型。那么在其他领域大杀四方的 Transformers 在扩散模型中是否还有用武之地呢？基于这一想法，DiT（Diffusion Transformer）利用 transformer 结构探索了一种新的扩散模型。它不仅继承了 Transformer 模型类的优秀扩展特性，性能还优于...

微软提出通用解码器 X-Decoder，支持图像分割和语言分词

2023-01-09

阅读 1 分钟

1.3k

出品人：Towhee 技术团队王翔宇、顾梦佳X-Decoder 是一种通用解码模型，可以无缝实现像素级图像分割和语言分词。它的输入支持两种类型的查询：通用非语义查询和基于文本输入的语义查询，能够在同一语义空间中解码不同的像素和分词级别的输出。凭借新颖的设计，X-Decoder 首次提供了一种统一方式用于支持所有类型的图像...

封面图

汽车之家基于 Milvus 的向量检索平台实践

2022-12-20

阅读 5 分钟

1.9k

随着计算机技术及机器学习技术的发展，特征向量作为一种多媒体数据（文本、语音、图片、视频）的描述方式，逐渐成熟起来，而向量检索（向量相似计算）也逐渐成为一种通用的需求。

封面图

Milvus 2.1.x 到 Milvus 2.2.x 升级实践

2022-12-15

阅读 3 分钟

1.9k

近日，Milvus 2.2.0 发布，新版本里支持了许多激动人心的功能，包括：磁盘索引（DiskANN）、从文件中批量导入数据（bulk_insert）、基于角色的访问控制（RBAC）、集合生存时间（TTL）等。不少社区的小伙伴对新版本都已经跃跃欲试。不过与以往版本直接升级镜像的简单操作相比，由于 2.2 和 2.1 的元数据发生了变化，以及...

封面图

我们又重写了一个关键服务

2022-11-30

阅读 3 分钟

1.2k

QueryCoord 是 Milvus 中查询集群的中心调度节点，在用户将一个 Collection Load 到内存中时，QueryCoord 负责将该 Collection 的 Segment 调度到 QueryNode 集群中，以支持后续的查询。

封面图

Milvus 编译环境演进

2022-11-17

阅读 7 分钟

2k

Milvus 代码库分为了 C++ 和 Go 两个部分，Go 部分负责系统主体架构、分布式系统、存储/查询链路等，C++ 部分负责查询、索引引擎专注于单机场景下的高性能，两者之间通过 cgo 接口调用。

封面图

Milvus 2.1 版本更新 - 简单可信赖、性能持续提升

2022-10-14

阅读 3 分钟

1.8k

继年初发布 Milvus 2.0 版本之后，在数百位 Milvus 社区贡献者六个月的共同努力下，我们在早些时候发布了 Milvus 2.1 版本，经过两个月的数次迭代，版本趋于稳定，被国内外头部厂商信任和选择使用。

封面图

如何设计一个面向未来的云原生数据库？

2022-09-14

阅读 7 分钟

2.1k

很荣幸我们最新的论文《Manu: A Cloud Native Vector Database Management System》被数据库领域国际顶会 VLDB'22 录用。这两天刚好在大会上分享了论文内容。正好趁热打铁写一篇文章，将梳理后的论文内容分享给大家，聊聊背后的设计与思考。

封面图

Zilliz 论文入选数据库顶会 VLDB'22

2022-09-08

阅读 2 分钟

1.9k

近日，Zilliz 技术团队最新数据库研究成果再获国际认可。面向向量数据管理而设计的云原生数据库系统 Milvus 2.0 论文《Manu: A Cloud Native Vector Database Management System》入选数据库顶级会议 VLDB'22。

封面图

Milvus 在 Likee 短视频去重业务中的实践

2022-06-20

阅读 2 分钟

1.9k

本篇内容主要介绍拥有全球 4 亿用户的视频直播公司 BIGO 如何利用向量搜索引擎 Milvus 进行海量短视频去重的工作。在 Milvus 向量搜索引擎的加速下，BIGO 旗下的短视频产品 Likee 能够将每次搜索都控制在 200ms 内，并且能够保证较高的召回率。同时，我们采用了横向扩展 Milvus 的方式来提高向量查询的吞吐量，来保证业...

封面图

图像审核产品“侦图” —— Milvus 在翼支付风控场景中的应用

2022-06-10

阅读 4 分钟

2k

本文从翼支付风控的实际应用场景出发，介绍了图像审核产品“侦图”如何检测虚假营业执照，店内门头照、相似模板照的识别问题，“侦图”产品通过引入 Milvus 来进行特征向量检索，在检索速度上，千万级别向量查询时，单条向量查询时间不高于 1 秒，批量查询的单条平均时间不高于 0.08 秒，极大节省了开发成本，并显著提高了系...

封面图

聊聊云原生数据库的一致性

2022-05-20

阅读 7 分钟

3k

我在和很多朋友讨论的过程中，发现大家对于 Consistency、Consensus、Replication 这些基本概念存在很多误解，也有很多人认为只有基于 Paxos/Raft 这类分布式一致性算法的日志复制才是分布式数据库的唯一正解。

Milvus 2.0 Knowhere 概览

2022-04-29

阅读 5 分钟

2.9k

编者按：本文详细介绍了 Milvus 2.0 系统的核心计算引擎 Knowhere，包括代码概览、如何添加索引，及对 Faiss 所做的优化。

封面图

2

2