【4月14日】十篇（将）开源论文代码分享

整理：CV君
包含光学、人脸、分割、视觉问答、语音处理、缺陷检测等领域。

光学##CVPR2021

1、Shape and Material Capture at Home

马里兰大学&华盛顿大学

已开源：https://github.com/dlichy/Sha...

论文：https://arxiv.org/abs/2104.06397

主页：https://dlichy.github.io/Shap...

CVPR2021

2、Global Transport for Fluid Reconstruction with Learned Self-Supervision

慕尼黑工业大学&苏黎世联邦理工学院

将开源：https://github.com/tum-pbs/Gl...

论文：https://arxiv.org/abs/2104.06031

CVPR2021

3、Visually Informed Binaural Audio Generation without Binaural Audios

港中文-商汤联合实验室&南洋理工大学

已开源：https://github.com/SheldonTsu...

论文：https://arxiv.org/abs/2104.06162

主页：https://sheldontsui.github.io...

视频：https://youtu.be/r-uC2MyAWQc

CVPR2021

4、Simpler Certified Radius Maximization by Propagating Covariances

威斯康星大学&伯克利

CVPR 2021 oral

将开源：https://github.com/zhenxingji...

论文：https://arxiv.org/abs/2104.05888

视频：https://www.youtube.com/watch...

实例分割

5、Pointly-Supervised Instance Segmentation

UIUC&Facebook

文章提出基于点的实例级标注，是实例分割中的一种新的弱监督形式。可以将标准的边界盒标注与标签点结合起来，标签点在每个边界盒内统一采样。作者称，现有的针对全掩膜监督开发的实例分割模型，如 Mask R-CNN，可以在不做任何重大修改的情况下，用基于点的标注进行无缝训练。

在 COCO、PASCAL VOC、Cityscapes 和 LVIS 上训练的 Mask R-CNN 模型，每个目标只有10个标注点，其完全监督的性能达到 94%-98%。新的基于点的标注比目标掩码的收集速度快约 5 倍，使得高质量的实例分割更容易被新数据所接受。

受新的标注形式的启发，作者提出对 PointRend 实例分割模块的修改。对于每个对象，新的架构称为 Implicit PointRend，为一个函数生成参数，进行最终的点级掩码预测。Implicit PointRend 更直接，使用单一的点级掩码损失。实验表明，新模块更适合提出的基于点的监督。

已开源：https://github.com/facebookre...

论文：https://arxiv.org/abs/2104.06404

主页：https://bowenc0221.github.io/...

实例分割##AAAI 2021

6、DropLoss for Long-Tail Instance Segmentation

台湾清华大学&Virginia Tech&Aeolus Robotics

作者对长尾分布的独特特征进行了分析，特别是在实例分割背景下，在训练过程中从背景预测中通过不成比例的抑制性梯度明确指出不平衡问题。

开发一种方法，通过利用抽样训练批中稀有类和频繁类的比例来缓和这种长尾分布环境下的不平衡问题。并通过实验证明了所提出方法在具有挑战性的长尾 LVIS 数据集上获得了最先进的实例分割结果（Gupta，Dollar，´和Girshick 2019）。

已开源：https://github.com/timy90022/...

论文：https://arxiv.org/abs/2104.06402

语义分割

7、All you need are a few pixels: semantic segmentation with PIXELPICK

牛津大学

文章提出 PIXELPICK 框架，用于语义分割，采用很少的稀疏带标注的像素来训练有效的分割模型。并证明与最先进的方法相比，它需要少的多的标注就可获得相当的性能。还展示了如何通过无鼠标标签工具高效地获得像素级主动学习的标注，便于现实世界的部署。

已开源：https://github.com/NoelShin/P...

论文：https://arxiv.org/abs/2104.06394

主页：https://www.robots.ox.ac.uk/~...

缺陷检测

8、Mixed supervision for surface-defect detection: from weakly to fully supervised learning

University of Ljubljana

文中作者放宽对完全监督学习方法的重度要求，并减少对高细节标注的需求。通过提出一个深度学习架构，探索不同细节的标注的使用，从弱（图像级）标签到混合监督，再到完全（像素级）标注，在表面缺陷检测任务上的使用。所提出的端到端架构由两个子网络组成，产生缺陷分割和分类结果。并在几个工业质量检测的数据集KolektorSDD、DAGM 和 Severstal Steel Defect 对所提出方法进行了评估。

在解决一个真实世界的工业问题时获得一个新数据集 KolektorSDD2，有 3000 多张包含多种类型缺陷的图像。

最后展示了所有四个数据集的最先进结果。在完全监督环境下优于所有相关方法，并且当只有图像级标签可用时也优于弱监督方法。还表明，在弱标注的训练图像中只添加少量完全标注样本的混合监督，可以获得与完全监督模型性能相当的性能，但标注成本却大大降低。

已开源：https://github.com/vicoslab/m...

数据集：https://www.vicos.si/Download...

论文：https://arxiv.org/abs/2104.06064

人脸

9、VariTex: Variational Neural Face Textures

苏黎世联邦理工学院&谷歌

提出 VariTex，第一个用于学习神经人脸纹理的变量隐特征空间的方法，它允许对新身份进行采样。将学习到的人脸纹理的生成能力与参数化人脸模型的显式控制相结合，实现对人脸表情、头部姿势、脸型和外观的精细控制。为没有三维几何图形的困难区域（如头发）合成了可信的输出。实验证明所提出方法在几何变换下更加一致，并在感知研究中得到了高度评价。

将开源：https://github.com/mcbuehler/...

论文：https://arxiv.org/abs/2104.05988

VQA

10、CLEVR_HYP: A Challenge Dataset and Baselines for Visual Question Answering with Hypothetical Actions over Images

亚利桑那州立大学

现有的大多数关于视觉问答（VQA）的研究仅限于图像或视频中明确存在的信息。在本文中，作者将视觉理解提升到一个更高的层次，系统需要回答的问题将涉及到一些假设结果，如在心理上模拟在给定场景中执行特定行动的假设结果。为此，基于 CLEVR（Johnson等人，2017）数据集制定了一个视觉语言问题解答任务。然后，对现有的最佳 VQA 方法进行了修改，并提出了该任务的基线求解器。最后，通过提供关于不同架构在图像-文本模式上执行联合推理的能力见解，来激励更好的视觉-语言模型的开发。

将开源：https://github.com/shailaja18...

论文：https://arxiv.org/abs/2104.05981

【4月14日】十篇（将）开源论文代码分享

光学##CVPR2021

CVPR2021

CVPR2021

CVPR2021

实例分割

实例分割##AAAI 2021

语义分割

缺陷检测

人脸

VQA

我爱计算机视觉

引用和评论

Kaggle竞赛中使用YoloV5将物体检测的性能翻倍的心路历程

基于 MCP 的 AI Agent 应用开发实践

OSPO Summit 2025 正式定档！议题征集同步开启

OSPO Summit 2025 首批议程发布！

强烈推荐|新手从搭建到二开TinyEngine低代码引擎

面对开源大模型浪潮，基础模型公司如何持续盈利？

ClkLog埋点分析系统-环境部署配置指南