WACV 2021 论文大盘点-图像分割篇

编译 | CV君
报道 | OpenCV中文网（微信id：iopencv）

本篇文章盘点WACV2021图像分割相关论文，包括抠图、实例、全景、语义分割，自然灾害评估等相关应用。值得关注的是有一篇文本抠图，在以往工作中很少或从未研究过的。

共计 11 篇。如有遗漏，欢迎补充。

下载包含这些论文的 WACV 2021 所有论文：

『WACV 2021 开幕，更偏重技术应用，附论文下载』

实例分割

[1].Weakly Supervised Instance Segmentation by Deep Community Learning

文中作者引入一个用于弱监督实例分割的深度社区学习框架，该框架基于一个端到端可训练的深度神经网络，在目标检测、实例掩码生成和目标分割多个任务之间有主动交互。加入两种有经验的目标定位技术：class-agnostic bounding box regression 和 segmentation proposal generation，且是在没有完全监督的情况下进行的。

所提出的算法在不进行后处理情况下，在标准基准数据集上实现了比现有弱监督方法大幅提高的性能。

作者 | Jaedong Hwang, Seohyun Kim, Jeany Son, Bohyung Han

单位 | 首尔大学；ETRI

论文 | https://arxiv.org/abs/2001.11207

主页 | https://cv.snu.ac.kr/research...

[2].MSNet: A Multilevel Instance Segmentation Network for Natural Disaster Damage Assessment in Aerial Videos

MSNet：用于航空视频自然灾害评估的多级实例分割网络

本文研究通过航空视频分析，有效评估飓风、洪水或火灾等自然灾害后的建筑物损失问题。

做出了两个主要贡献：

第一个贡献是一个新的数据集，包括来自社交媒体用户生成的航拍视频，并带有实例级的建筑损伤掩码标注。为利用航拍视频评估建筑物损伤的模型的定量评估提供了第一个基准。

第二个贡献是一个新的模型：MSNet，包含了新的区域 proposal 网络设计和一个无监督的分数细化网络，用于边界盒和掩模分支的置信度分数校准。

实验表明，新的模型和新的数据集与以前的方法相比，取得了最先进的结果。

作者表示将发布数据、模型和代码。

作者 | Xiaoyu Zhu, Junwei Liang, Alexander Hauptmann

单位 | 卡内基梅隆大学

论文 | https://w.url.cn/s/AC2eIwl

代码 | https://github.com/zgzxy001/M...

语义分割

[3].Unsupervised Domain Adaptation in Semantic Segmentation via Orthogonal and Clustered Embeddings

作者 | Marco Toldo, Umberto Michieli, Pietro Zanuttigh

单位 | 意大利帕多瓦大学

论文 | https://arxiv.org/abs/2011.12616

主页 | https://lttm.dei.unipd.it/pap...

代码 | https://github.com/LTTM/UDAcl...

[4].Improving Point Cloud Semantic Segmentation by Learning 3D Object Detection

提出 Detection Aware 3D Semantic Segmentation (DASS) 网络来解决当前架构的局限性。

DASS 可以在保持高精度鸟瞰（BEV）检测结果的同时，将几何相似类的 3D语义分割结果提高到图像 FOV 的 37.8% IoU。

作者 | Ozan Unal, Luc Van Gool, Dengxin Dai

单位 | 苏黎世联邦理工学院；鲁汶大学

论文 | https://arxiv.org/abs/2009.10569

[5].Multi Projection Fusion for Real-Time Semantic Segmentation of 3D LiDAR Point Clouds

本次工作，作者提出全新的 multi-projection 融合框架，通过使用球面和鸟瞰投影，利用 soft voting 机制对结果进行融合，实现点云语义分割。所提出的框架在 SemanticKITTI 数据集上的mIoU达到了 55.5，高于最先进的基于single projection 的方法 RangeNet++ 和 PolarNet，比前者快1.6倍，比后者快3.1倍。同时具有更高的 throughput（吞吐量）。

对于未来工作方向，作者称将两种 projections 结合成单一的多视图统一模型，并研究在框架内使用两种以上的 projections 。

作者 | Yara Ali Alnaggar, Mohamed Afifi, Karim Amer, Mohamed Elhelw

单位 | Nile University；

论文 | https://arxiv.org/abs/2011.01974