Kaggle竞赛中使用YoloV5将物体检测的性能翻倍的心路历程

2021-04-16
阅读 3 分钟
3.5k
本文转载自AI公园。作者:Mostafa Ibrahim编译:ronghuaiyang导读作者在kaggle比赛中从建立基线到一步一步的优化过程,最终将performance提升了一倍,非常好的竞赛经验总结文章。我花了三个月的时间深入研究物体检测。我尝试了很多方法,从实现最先进的模型,如YoloV5、VFNets、DETR,到将目标检测模型与图像分类模型融...

霸榜多个CV任务!开源仅两天,已收获2.1k star

2021-04-16
阅读 2 分钟
2.3k
自 2017 年 6 月谷歌提出 Transformer 以来,它便逐渐成为了自然语言处理领域的主流模型。最近一段时间,Transformer 更是开启了自己的跨界之旅,开始在计算机视觉领域大展身手,涌现出了多个基于 Transformer 的新模型,如谷歌用于图像分类的 ViT 以及复旦、牛津、腾讯等机构的 SETR 等。由此,「Transformer 是万能的...

【4月14日】十篇(将)开源论文代码分享

2021-04-15
阅读 4 分钟
2.7k
整理:CV君包含光学、人脸、分割、视觉问答、语音处理、缺陷检测等领域。光学##CVPR20211、Shape and Material Capture at Home马里兰大学&华盛顿大学已开源:[链接]论文:[链接]主页:[链接]CVPR20212、Global Transport for Fluid Reconstruction with Learned Self-Supervision慕尼黑工业大学&苏黎世联邦理工...

CVPR 2021 |针对强时序依赖,即插即用、混合注意力机制的 ACTION 模块

2021-04-09
阅读 4 分钟
2k
本文是对我们 CVPR 2021 接收的工作 "ACTION-Net: Multipath Excitation for Action Recognition" 的介绍。主要针对强时序依赖行为识别这个场景,设计了一组卷积模块。

多功能的图像超分辨模型:用于盲图像超分辨的非对称卷积神经网络

2021-04-06
阅读 4 分钟
1.3k
哈工大、台湾国立清华大学与香港中文大学的研究人员联合提出用于盲图像超分辨的非对称卷积网络,该文收录于IEEE Transactions on Systems, Man, and Cybernetics: Systems (IEEE TSMC)期刊。
封面图

多项评测排名第一!大连理工和微软亚研院提出目标跟踪算法STARK

2021-04-01
阅读 2 分钟
3.8k
本文简短介绍大连理工大学和微软亚洲研究院合作的最新工作:Learning Spatio-Temporal Transformer for Visual Tracking,代码已开源,先来看下STARK在各大数据集上的性能。

PoseFormer:首个纯基于Transformer的 3D 人体姿态估计网络,性能达到 SOTA

2021-03-31
阅读 3 分钟
2.6k
本文分享一篇 52CV 粉丝的论文『3D Human Pose Estimation with Spatial and Temporal Transformers』。文中提出首个纯粹基于Transformer 的架构,在不涉及卷积的情况下在视频中实现3D人体姿态估计。算法在Human3.6M和MPI-INF-3DHP数据集上均达到SOTA performance,并在 in the wild 视频中有着不错的表现。
封面图

TIP2021 _ 视频超分辨率中的多级特征融合网络

2021-03-25
阅读 5 分钟
1.8k
作者 | Salted Fish编辑 | CV君报道 | 我爱计算机视觉(微信id:aicvml)论文链接:[链接]看点现有的VSR方法的主要问题是参考帧的特征与相邻帧的特征的融合是一步的,融合后的特征可能与原始LR中的视觉信息有较大的偏差。本文提出了一种端到端的多阶段特征融合网络,主要贡献为:提出了一种新的VSR特征融合方法,该方法...

2021 最新CV综述分类汇总(持续更新)

2021-03-25
阅读 1 分钟
2.4k
在浩如烟海的计算机视觉类论文中(每年新出CV及相关技术论文1W+篇),综述具有特殊的帮助意义。它们往往能清楚为我们串起来一个特定领域的定义、重要论文、发展水平、潜在研究方向、相关代码和数据集等信息。

目标检测算法YOLOF:You Only Look One-level Feature

2021-03-24
阅读 6 分钟
2.1k
作者 | 张凯编辑 | CV君报道 | 我爱计算机视觉(微信id:aicvml)本文介绍 CVPR 2021 接收的目标检测论文 You Only Look One-level Feature。原论文作者来自:中科院自动化所、中科院大学人工智能学院、中国科学院脑科学与智能技术卓越创新中心、旷视科技。0 动机在高性能的目标检测网络中,特征金字塔网络(Feature Pyr...
封面图

WACV 2021 论文大盘点-图像分割篇

2021-01-21
阅读 5 分钟
3.8k
本篇文章盘点WACV2021图像分割相关论文,包括抠图、实例、全景、语义分割,自然灾害评估等相关应用。值得关注的是有一篇文本抠图,在以往工作中很少或从未研究过的。

不得不赞!京东开源FaceX-Zoo,一站式人脸识别研究平台

2021-01-21
阅读 2 分钟
2.3k
近日,京东AI研究院开源了FaceX-Zoo,一个专为人脸识别而生的开源库,论文 FaceX-Zoo: A PyTorch Toolbox for Face Recognition 详述了其特点,不仅方便比较研究不同的方法,还针对实际应用开发了特定功能(如人脸戴口罩、Shallow Face Learning 等)。非常值得关注!

人脸超分辨率,基于迭代合作的方法

2021-01-19
阅读 4 分钟
1.4k
分享一篇 2020CVPR 录用论文:Deep Face Super-Resolution with Iterative Collaboration between Attentive Recovery and Landmark Estimation,其提出了一种基于迭代合作的人脸超分辨算法。

摄像机域内监督行人重识别问题

2021-01-18
阅读 5 分钟
2.4k
本文是对『Intra-Camera Supervised Person Re-Identification』一文的详细解读,IJCV接收论文。

推荐几篇近期必看的视觉综述,含GAN、Transformer、人脸超分辨、遥感等

2021-01-15
阅读 4 分钟
3.1k
编译 | CV君 报道 | 我爱计算机视觉(微信id:aicvml)本文介绍 2021 年这半月以来的 CV 领域相关综述。文末附打包下载。GAN综述GAN 逆映射问题:全面调研(GAN Inversion: A Survey)GAN 逆映射指将给定图像转化到预训练 GAN 模型的隐空间,生成器可用其逆映射码进行可靠的图像重建。GAN逆映射成为连接真实图像和假图像...

6ms 的EfficientDeRain:颇具启发的简单高效去雨算法

2021-01-15
阅读 2 分钟
2.1k
分享一篇论文AAAI 2021录用论文 EfficientDeRain: Learning Pixel-wise Dilation Filtering for High-Efficiency Single-Image Deraining ,其提出了极其快速高效的图像去雨算法,平均 6ms 即可处理一幅图像,比之前的state-of-the-art方法(RCDNet,CVPR2020)快80倍!目前代码已开源。

分享一个PyTorch医学图像分割开源库

2021-01-12
阅读 1 分钟
4.4k
分享一位52CV粉丝Ellis开发的基于PyTorch的专注于医学图像分割的开源库,其支持模型丰富,方便易用。其可算为torchio的一个实例,作者将其综合起来,包含众多经典算法,实用性比较强。

基于密度图的航空物体检测:理论与代码实现

2021-01-11
阅读 4 分钟
1.6k
本文来谈一下基于深度学习的航空物体场景下的物体检测。航空物体这类场景一般由无人机空拍来收集数据,然后进行后处理来满足特定的任务场景,有些情况下要求实现实时反馈,甚至多任务。

NTIRE 2021 @CVPR 2021 Workshop 及挑战赛来了!

2021-01-08
阅读 3 分钟
7.9k
NTIRE 全称为 New Trends in Image Restoration and Enhancement ,研究图像恢复、增强新趋势,聚焦图像视频的质量改进与评估,虽然底层图像视频处理是传统方向,但 New Trends 却给这个领域带来新内涵。

无中生有!没有视觉信号的视觉语音增强

2021-01-07
阅读 1 分钟
1.9k
今天跟大家分享一篇非常有意思也很有用的文章,是WACV 2021的录用论文Visual Speech Enhancement Without A Real Visual Stream。该文研究涉及计算机视觉与语音处理的交叉。

目标跟踪又添重磅开源工具箱,MMTracking来了!

2021-01-05
阅读 2 分钟
2.8k
今天,香港中文大学多媒体实验室(MMLab)旗下开源组织 OpenMMLab 发布新成员:MMTracking,旨在促进目标跟踪领域的研究开发。

视频人员重识别:关系引导空间注意力 + 时间特征提取模型

2021-01-04
阅读 10 分钟
2.2k
除了该文,还有 2020 年 CVPR 的基于视频的 Multi-Granularity Reference-Aided Attentive Feature Aggregation for Video-based Person Re-identification、基于图像的Relation-Aware Global Attention 等。

即插即用!视频超分中的涨点神器:iSeeBetter

2021-01-04
阅读 3 分钟
1.8k
CNN让超分结果更真实,GAN让超分结果更丰满,所以CNN+GAN=GOOD!添加一个鉴别器组件就能使结果增加0.32dB,即插即用,涨点神器!是否在其他的CNN架构上也可行,还需实验验证。 题目:iSeeBetter:iSeeBetter: Spatio-temporal video super-resolution using recurrent generative back-projection networks论文:[链接]代...

目标检测的稀疏对抗攻击,代码已开源

2021-01-04
阅读 3 分钟
2.7k
编译 | 孙裕道,CV君 报道 | 我爱计算机视觉(微信id:aicvml)题目:Sparse Adversarial Attack to Object Detection论文:[链接]代码:[链接]引言该论文的出处是阿里天池大赛中安全AI挑战者计划第四期的通用目标检测对抗攻击。阿里的安全AI挑战者计划是一系列关于AI安全的竞赛,到目前为止球200多所高校100多家企业的...

YolactEdge:首个开源边缘设备上的实时实例分割(Jetson AGX Xavier: 30 FPS)

2020-12-30
阅读 1 分钟
2.8k
在550x550分辨率的图像上,以ResNet-101为主干网的YolactEdge 在Jetson AGX Xavier上的运行速度高达30.8 FPS(在RTX 2080 Ti上的运行速度为172.7 FPS)。

无需聚类,杭电学者提出基于软化相似度学习的无监督行人再识别

2020-12-28
阅读 7 分钟
1.3k
Unsupervised Person Re-identification via Softened Similarity Learning:

难以置信的目标检测小妙招:多训练几个epochs,平均一下就能获得更好的模型

2020-12-28
阅读 2 分钟
2.8k
随着深度学习技术的成熟,设计新的算法在主流的目标检测数据集比如COCO上提升精度已经很难了,但总有一些涨点技巧,比如谷歌前几天公布的 简单粗暴“复制-粘贴”数据增广,简单又有效,让人措不及防。

华为联合北大、悉尼大学对 Visual Transformer 的最新综述

2020-12-25
阅读 3 分钟
3.1k
Transformer 技术最开始起源于自然语言处理领域,但今年5月份Facebook 的一篇文章将其应用于计算机视觉中的目标检测(DETR算法,目前已有78次引用)使其大放异彩,并迅速得到CV研究社区的关注。

OpenCV 新版 4.5.1 发布!

2020-12-24
阅读 2 分钟
2.4k
作者 | CV君报道 | 我爱计算机视觉(微信id:aicvml)发布亮点: OpenCV Github 项目终于突破50000 stars!新的里程碑~这次发布的特性包括:集成更多的GSoC 2020 项目的结果,包括:1\. 开发了OpenCV.js DNN 模块,以方便再网页中使用,并提供了相关教程。图像分类目标检测风格迁移语义分割姿态估计2\. OpenCV.js WASM S...

阿里-优酷视频增强和超分辨率挑战赛冠军方案:VESR-Net

2020-12-24
阅读 3 分钟
1.6k
作者 | Wangsy编辑 | CV君报道 | 我爱计算机视觉(微信id:aicvml)作者单位:中国科学技术大学、微软亚洲研究院 论文:[链接]挑战赛:[链接]看点视频增强与超分辨率(VESR)旨在从噪声和低分辨率视频帧中恢复高分辨率的细节。为了推动研究从受现实世界退化影响的低质量视频中恢复高质量视频,优酷举办了视频增强和超分...