Kaggle竞赛中使用YoloV5将物体检测的性能翻倍的心路历程

2021-04-16
阅读 3 分钟
3.8k
本文转载自AI公园。作者:Mostafa Ibrahim编译:ronghuaiyang导读作者在kaggle比赛中从建立基线到一步一步的优化过程,最终将performance提升了一倍,非常好的竞赛经验总结文章。我花了三个月的时间深入研究物体检测。我尝试了很多方法,从实现最先进的模型,如YoloV5、VFNets、DETR,到将目标检测模型与图像分类模型融...

霸榜多个CV任务!开源仅两天,已收获2.1k star

2021-04-16
阅读 2 分钟
2.5k
自 2017 年 6 月谷歌提出 Transformer 以来,它便逐渐成为了自然语言处理领域的主流模型。最近一段时间,Transformer 更是开启了自己的跨界之旅,开始在计算机视觉领域大展身手,涌现出了多个基于 Transformer 的新模型,如谷歌用于图像分类的 ViT 以及复旦、牛津、腾讯等机构的 SETR 等。由此,「Transformer 是万能的...

【4月14日】十篇(将)开源论文代码分享

2021-04-15
阅读 4 分钟
2.9k
整理:CV君包含光学、人脸、分割、视觉问答、语音处理、缺陷检测等领域。光学##CVPR20211、Shape and Material Capture at Home马里兰大学&华盛顿大学已开源:[链接]论文:[链接]主页:[链接]CVPR20212、Global Transport for Fluid Reconstruction with Learned Self-Supervision慕尼黑工业大学&苏黎世联邦理工...

CVPR 2021 |针对强时序依赖,即插即用、混合注意力机制的 ACTION 模块

2021-04-09
阅读 4 分钟
2.2k
本文是对我们 CVPR 2021 接收的工作 "ACTION-Net: Multipath Excitation for Action Recognition" 的介绍。主要针对强时序依赖行为识别这个场景,设计了一组卷积模块。

多功能的图像超分辨模型:用于盲图像超分辨的非对称卷积神经网络

2021-04-06
阅读 4 分钟
1.5k
哈工大、台湾国立清华大学与香港中文大学的研究人员联合提出用于盲图像超分辨的非对称卷积网络,该文收录于IEEE Transactions on Systems, Man, and Cybernetics: Systems (IEEE TSMC)期刊。
封面图

多项评测排名第一!大连理工和微软亚研院提出目标跟踪算法STARK

2021-04-01
阅读 2 分钟
4.1k
本文简短介绍大连理工大学和微软亚洲研究院合作的最新工作:Learning Spatio-Temporal Transformer for Visual Tracking,代码已开源,先来看下STARK在各大数据集上的性能。

PoseFormer:首个纯基于Transformer的 3D 人体姿态估计网络,性能达到 SOTA

2021-03-31
阅读 3 分钟
3k
本文分享一篇 52CV 粉丝的论文『3D Human Pose Estimation with Spatial and Temporal Transformers』。文中提出首个纯粹基于Transformer 的架构,在不涉及卷积的情况下在视频中实现3D人体姿态估计。算法在Human3.6M和MPI-INF-3DHP数据集上均达到SOTA performance,并在 in the wild 视频中有着不错的表现。
封面图

TIP2021 _ 视频超分辨率中的多级特征融合网络

2021-03-25
阅读 5 分钟
2.1k
作者 | Salted Fish编辑 | CV君报道 | 我爱计算机视觉(微信id:aicvml)论文链接:[链接]看点现有的VSR方法的主要问题是参考帧的特征与相邻帧的特征的融合是一步的,融合后的特征可能与原始LR中的视觉信息有较大的偏差。本文提出了一种端到端的多阶段特征融合网络,主要贡献为:提出了一种新的VSR特征融合方法,该方法...

2021 最新CV综述分类汇总(持续更新)

2021-03-25
阅读 1 分钟
2.7k
在浩如烟海的计算机视觉类论文中(每年新出CV及相关技术论文1W+篇),综述具有特殊的帮助意义。它们往往能清楚为我们串起来一个特定领域的定义、重要论文、发展水平、潜在研究方向、相关代码和数据集等信息。

摄像机域内监督行人重识别问题

2021-01-18
阅读 5 分钟
2.6k
本文是对『Intra-Camera Supervised Person Re-Identification』一文的详细解读,IJCV接收论文。

华为联合北大、悉尼大学对 Visual Transformer 的最新综述

2020-12-25
阅读 3 分钟
3.4k
Transformer 技术最开始起源于自然语言处理领域,但今年5月份Facebook 的一篇文章将其应用于计算机视觉中的目标检测(DETR算法,目前已有78次引用)使其大放异彩,并迅速得到CV研究社区的关注。

OpenCV 新版 4.5.1 发布!

2020-12-24
阅读 2 分钟
2.5k
作者 | CV君报道 | 我爱计算机视觉(微信id:aicvml)发布亮点: OpenCV Github 项目终于突破50000 stars!新的里程碑~这次发布的特性包括:集成更多的GSoC 2020 项目的结果,包括:1\. 开发了OpenCV.js DNN 模块,以方便再网页中使用,并提供了相关教程。图像分类目标检测风格迁移语义分割姿态估计2\. OpenCV.js WASM S...

阿里-优酷视频增强和超分辨率挑战赛冠军方案:VESR-Net

2020-12-24
阅读 3 分钟
1.8k
作者 | Wangsy编辑 | CV君报道 | 我爱计算机视觉(微信id:aicvml)作者单位:中国科学技术大学、微软亚洲研究院 论文:[链接]挑战赛:[链接]看点视频增强与超分辨率(VESR)旨在从噪声和低分辨率视频帧中恢复高分辨率的细节。为了推动研究从受现实世界退化影响的低质量视频中恢复高质量视频,优酷举办了视频增强和超分...

谷歌发布 MediaPipe Holistic,实现移动端同时进行人脸、手部和人体关键点检测跟踪

2020-12-23
阅读 3 分钟
3.4k
作者:Ivan Grishchenko & Valentin Bazarevsky编译:CV君报道 | 我爱计算机视觉(微信id:aicvml)

SUPER车道线检测:异构数据集训练、物理驱动拟合

2020-12-10
阅读 4 分钟
2.3k
介绍一篇今年的车道线检测论文 SUPER: A Novel Lane Detection System,作者来自密歇根大学和SF Motors 公司。

上达最高精度,下到最快速度,Scaled-YOLOv4:模型缩放显神威

2020-12-09
阅读 3 分钟
2.5k
分享一篇今天新出的重要文章:Scaled-YOLOv4: Scaling Cross Stage Partial Network,作者出自YOLOv4的原班人马,其聚焦于针对YOLOv4的模型缩放(model scale)。

CenterFusion:融合雷达与摄像头数据的高精度3D目标检测

2020-12-09
阅读 2 分钟
4k
介绍一篇新出的论文 CenterFusion: Center-based Radar and Camera Fusion for 3D Object Detection ,旨在使用低成本的雷达(redar)替换自动驾驶中的激光雷达,并达到高精度3D目标检测的方法。

Transformer 又立功了!又快(420 fps)又好的车道线检测算法

2020-12-09
阅读 2 分钟
3.1k
分享一篇新出的论文 End-to-end Lane Shape Prediction with Transformers,该文为车道线检测问题建立参数模型,使用Transformer捕获道路中细长车道线特征和全局特征,所发明的车道线检测算法与以往相比,可端到端训练、参数量更少、速度更快(高达420 fps,单1080Ti)。

最新!图像去噪综合比较研究

2020-12-09
阅读 5 分钟
2.4k
图像去噪是计算机视觉领域的传统方向,对于可见光图像、视频、核磁图像等的处理仍应用广泛,在工业和学术界引起很多人的关注,基于BM3D(block-matching 3D ,2007)框架的系列算法是该领域的著名方法,其结合图像非局部相似的属性和变换域的稀疏表示,在深度学习用于CV各领域的今天仍有用武之地。

简洁的架构还能高效和准确?清华&华为提出新型残差循环超分模型:RRN!

2020-12-03
阅读 2 分钟
2.4k
分享一篇视频超分辨率的论文 Revisiting Temporal Modeling for Video Super-resolution,其为BMVC 2020 论文,该文的结果目前在视频超分的几个数据集上都是排名第一,代码已开源。