YOWOv2:优秀的实时视频动作检测框架

2023-03-17
阅读 1 分钟
1.9k
为时空动作检测任务设计实时框架仍然是一个挑战。YOWOv2 提出了一种新颖的实时动作检测框架,利用三维骨干和二维骨干进行准确的动作检测。经过改进,YOWOv2 明显优于Y OWO,并且仍然可以保持实时检测。YOWOv2 在数据集 UCF101-24 上以超过 20 FPS 的速度实现了 87.0% 的视频帧 mAP 和 52.8% 的全视频 mAP。在数据集 AVA ...
封面图

AltCLIP:改变语言编码器,扩展语言功能

2023-03-16
阅读 1 分钟
1.5k
AltCLIP 提出了一种概念上简单有效的方法,以训练强大的双语或多语多模态表征模型。 以 OpenAI 发布的预训练多模态表示模型 CLIP 为基础,AltCLIP 另外采用了预训练的多语言文本编码器 XLM-R,并通过一个由教师学习和对比学习组成的两阶段训练模式来调整语言和图像表示。 实验结果表明,AltCLIP 在各种公开的图像数据集...
封面图

Visual ChatGPT:跟聊天机器人一起绘画

2023-03-13
阅读 1 分钟
1k
从AI作画背后的 Diffusion 到智能聊天里的 ChatGPT,生成模型的热潮一浪接着一浪,似乎也预示着超大预训练模型就是人工智能的未来。在万众瞩目的 GPT 4.0 “官宣”之前,微软率先发布融合了大语言模型和大视觉模型的 Visual ChatGPT。智能对话不再局限于文本类的交流,机器人不仅可以“看图说话”,还能沟通作画。不同模态的...
封面图

探究计算机视觉新兴能力:如何通过提示检索提高性能?

2023-03-02
阅读 1 分钟
1.1k
由于其强大的泛化性能,在广泛数据上训练的大规模模型最近已成为计算机视觉中的主流架构。主要探索了大规模视觉模型中的一种新兴的能力,称为“in-context learning”。这种能力允许模型在未见过的任务上进行推断,并且不需要更新模型参数。研究发现,in-context examples(即“提示”)对于该能力的影响很大。为此,Visual ...
封面图

根据文本描述生成视频,Tune-A-Video 效果惊艳

2023-02-28
阅读 1 分钟
2.1k
以文本-图片生成模型的成功为灵感,近来文本-视频生成模型也开始采用大规模的文本-视频数据集进行微调训练。然而处理大规模视频数据的成本非常高,为此 Tune-A-Video 提出一种新的任务模型 One-Shot Video Generation,即仅使用单个文本-视频对训练通用领域的文本-视频生成器。 Tune-A-Video 多功能性和有效性,能够在各...
封面图

【AAAI 2023】针对视频分类的知识迁移

2023-02-23
阅读 1 分钟
1k
从与任务无关的预训练深度模型中为下游任务转移知识是计算机视觉研究中的一个重要课题。 随着计算能力的增长,现在已经有了大规模的开源视觉语言预训练模型和大量的数据。 因此,针对视频分类任务的知识迁移能够有效提高视频分类的性能和训练速度。通过简单而有效的调整范例,该方法能够在各种视频识别场景(即 zero-sho...
封面图

【ECCV 2022】TeSTRa:稳定的流式视频识别

2023-02-21
阅读 1 分钟
1.1k
流式视频识别视频会关注每一个视频帧中的对象及其行为。一个好的流式识别模型可以捕获视频的长期动态和短期变化。然而在大多数现有方法中,尤其是基于 Transformers 架构的网络,计算复杂度往往会随着所考虑的变化的长度而剧烈增长。为了解决这个问题,TeSTra 提出一种时序平滑 Transformer,可以接收任意长度的输入,并...
封面图

SVFormer:走进半监督动作识别的视觉 Transformer

2023-02-17
阅读 1 分钟
1.6k
半监督学习(SSL)的动作识别是一个关键的视频理解任务,然而视频标注的高成本加大了该任务的难度。目前相关的方法主要研究了卷积神经网络,较少对于视觉 Transformers(ViT)模型的探索。SVFormer 研究了如何将半监督 ViT 用于动作识别。它采用稳定的伪标签框架(即 EMA-Teacher)处理未标记的视频样本。它还针对视频数...
封面图

新型掩码自编码器 AdaMAE,自适应采样

2023-02-15
阅读 1 分钟
1.2k
Masked Autoencoders (MAEs) 通过从可见数据的 token 重建带掩码的输入数据,学习图像、文本、音频、视频等的通用表征。当前的视频 MAE 方法依赖于基于随机补丁、通道、或基于视频帧的屏蔽策略来选择这些 token。AdaMAE 在此基础上提出一种端到端可训练的自适应掩码策略。它从高时空信息区域采样更多的 token,实现了遮...
封面图

BATMAN:将双边注意力用于视频对象分割

2023-02-13
阅读 1 分钟
794
视频对象分割 (Video Object Segmentation,VOS) 是视频理解的基础。 基于 Transformer 的方法已经在半监督 VOS 上显示出显着的性能改进。 然而,现有的工作很难分割彼此靠近的相似物体。为此,BATMAN 提出了一种用于半监督 VOS 的新型双边注意力Transformer。大量实验验证了 BATMAN 架构的有效性,它在所有四个流行的 V...
封面图

SparK 用稀疏掩码为卷积设计 Bert 预训练

2023-02-07
阅读 1 分钟
1.4k
稀疏掩码建模 (SparK) 是第一个 BERT-style 的预训练方法,无需修改主干即可直接在任何卷积网络上,克服了它们无法处理不规则的掩码输入。该框架遮盖图像的一部分并学习恢复它,通过预训练卷积网络编码器实现分层掩码图像建模。SparK 可以被直接用于任何卷积模型,无需主干修改。它在经典 (ResNet) 和现代 (ConvNeXt) 的...
封面图

MixMIM 创建混合图像,提出新型掩码方案

2023-01-31
阅读 1 分钟
1.1k
商汤和港中文联合提出一种简单但有效的掩码图像建模(MIM)方法 MixMIM,通过创建混合图像利用BEiT和MAE的优点,又避免了它们的局限性。MixMIM 可以有效地学习高质量的视觉表示,也能被广泛应用于预训练的层次化视觉 Transformer,比如 Swin Transformer、PVT 等。MixMIM 还探索了轻量级架构,将 Swin Transformer 修改...
封面图

视觉模型 ConvNeXt V2,结合纯卷积与MAE

2023-01-20
阅读 1 分钟
1.9k
近年来以 ConvNeXt 为代表的现代 ConvNets 在各种视觉场景中都表现出了强大的性能。虽然这些模型最初是为使用 ImageNet 标签进行监督学习而设计的,但它们也可能受益于自监督学习技术,例如掩码自动编码器 (MAE) 。为了更好地结合ConvNeXt 和 MAE,ConvNeXt V2 提出了一个改进的网络架构,将全局响应归一化 (GRN) 层添加...
封面图

Transformer 再添一员,比 Swin 更强的 DiNAT

2023-01-19
阅读 1 分钟
2k
在视觉领域,除了常规 Transformer 的持续发展,分层的 Transformer 结构也因为其性能和易集成性获得了极大的关注。DiNA 注意力机制是 Neighborhood Attention(NA)的拓展,更加自然、灵活、高效。它可以捕获更多的全局上下文并以指数方式扩展感受域,而无需额外成本。DiNA Transformer 是基于两种注意力的新型分层视觉...

光神经网络ONN:直接对光信号进行神经网络处理

2023-01-18
阅读 1 分钟
1.4k
光学成像通常用于工业界和学术界的科学和技术应用。光学神经网络 (Optical neural networks,ONN) 提供了一个在模拟、光学领域处理数据的平台。 然而,基于 ONN 的传感器仅限于线性处理,但非线性是深度的先决条件,多层神经网络在许多任务上明显优于浅层神经网络。 目前的技术已经成功实现了用于图像传感的多层 ONN 预...
封面图

Mega 改进序列模型,引入移动平均捕捉时空依赖

2023-01-16
阅读 1 分钟
1.1k
Transformer 注意力机制的设计包括弱归纳偏置和复杂的二次计算,限制了它对长序列建模的应用。为了更好地使用单个模型捕捉序列数据中的长距离依赖,移动平均单头门控注意力(Mega)尝试沿时间维度,使用经典的指数滑动平均(EMA)方法引入偏差,并提出了一种具有线性复杂度的变体。通过在广泛的序列建模基准上进行实验,...
封面图

EfficientFormerV2 加速 ViT,更高效的移动端视觉模型

2023-01-13
阅读 1 分钟
1.6k
EfficientFormerV2 仿造卷积结构的 MobileNet,对 transformers 进行一系列针对移动端加速的设计和优化。模型的参数量和延迟对资源受限型的硬件来说至关重要,因此 EfficientFormerV2 结合了细粒度联合搜索策略,提出了一种具备低延迟和大小的高效网络。该网络在同等量级参数量和延迟下,其性能在公开的图像数据集 Image...
封面图

千万量级图片视频快速检索,轻松配置设计师的灵感挖掘神器

2021-09-28
阅读 3 分钟
1.9k
作者介绍:James Zhang,飞书深诺集团的算法工程师 ,毕业于芬兰坦佩雷大学,感兴趣的方向包括自然语言处理、计算机视觉等机器学习相关领域以及算法工程化。飞书深诺集团是专注海外数字营销解决方案的综合服务集团,为中国出海企业提供可定制组合的全链路服务产品,满足游戏、APP、电商、品牌等典型出海场景需求。
封面图

这人谁啊?这是啥?话在嘴边说不出,Milvus 帮你智能分析视频

2021-09-02
阅读 4 分钟
1.4k
陈室余, Zilliz 数据工程师,毕业于西安电子科技大学计算机学系。自加入 Zilliz 以来,致力于在音视频分析、化学分子式检索等各领域为 Milvus 开源项目探索解决方案,目前也在持续探索更多有趣的方案。为了好好生活、延年益寿,平时非常热爱运动。
封面图