推荐几篇近期必看的视觉综述，含GAN、Transformer、人脸超分辨、遥感等

编译 | CV君
报道 | 我爱计算机视觉（微信id：aicvml）

本文介绍 2021 年这半月以来的 CV 领域相关综述。文末附打包下载。

GAN综述

GAN 逆映射问题：全面调研（GAN Inversion: A Survey）

GAN 逆映射指将给定图像转化到预训练 GAN 模型的隐空间，生成器可用其逆映射码进行可靠的图像重建。

GAN逆映射成为连接真实图像和假图像的公共空间，在诸如 StyleGAN 和 BigGAN 等 GAN 模型进行图像编辑任务中起到非常重要的作用。其隐藏了我们理解 GAN 隐空间和如何生成具有真实感图像的密码。因此，研究 GAN 逆映射问题是非常重要的。

这篇综述论文聚焦于此问题，参考了 240 篇文献，对近年来的算法和应用进行了全面综述（重要技术及其在图像恢复与编辑中的应用），同时指出了未来的发展趋势和挑战。

除论文外，作者还建立了相应 Github 仓库，以便进一步跟踪该领域的发展：

https://github.com/weihaox/aw...

作者 | Weihao Xia, Yulun Zhang, Yujiu Yang*, Jing-Hao Xue, Bolei Zhou*, Ming-Hsuan Yang*

单位 | 清华大学、美国东北大学、伦敦大学学院、香港中文大学、加利福尼亚大学默塞德分校

地址 | https://arxiv.org/abs/2101.05278

Transformer 综述

近期实火的 Transformers，“走遍”CV领域的各个方向，后期，CV君将会对 Transformers 在 CV 领域的应用做一次总结，供大家参考。

以下先来一个开胃菜『Transformers in Vision: A Survey』，本篇综述旨在为计算机视觉学科中的 Transformers 模型提供一个全面的概述，其中涵盖了 Transformers 在计算机视觉领域中广泛应用，包括流行的识别任务（如图像分类、目标检测、动作识别和分割）；Generative Models（生成模型）；多模态任务（如视觉问题回答和视觉推理）；视频处理（如活动识别、视频预测）；low-level vision（如图像超分辨率和着色）；3D分析（如点云分类和分割）。并从架构设计和实验价值两个方面比较了流行技术各自的优势和局限性。

最后，作者对开放的研究方向和未来可能的工作进行了分析。

作者 | Salman Khan, Muzammal Naseer, Munawar Hayat, Syed Waqas Zamir, Fahad Shahbaz Khan, Mubarak Shah

单位 | MBZUAI；蒙纳士大学等

论文 | https://arxiv.org/abs/2101.01169

人脸超分辨率综述

Deep Learning-based Face Super-resolution: A Survey

人脸超分辨率也称为人脸幻构，目的是提高一张或一序列低分辨率(LR)人脸图像的分辨率，生成相应的高分辨率(HR)人脸图像，是一个特定领域的图像超分辨率问题。最近，人脸超分辨率受到了相当大的关注，并见证了深度学习技术的耀眼进展。但到目前为止，关于基于深度学习的人脸超分辨率的研究总结还很少。

在本次调查中，作者系统地对人脸超分辨率中的深度学习技术进行了全面的回顾。

首先，总结了人脸超分辨率的问题表述。

第二，比较了通用图像超分辨率和人脸超分辨率的区别。

第三，介绍了人脸幻构中常用的数据集和性能指标。

第四，根据人脸特定信息的利用情况，对现有方法进行粗略分类。在每一个类别中，首先对设计原则进行总体描述，对有代表性的方法进行概述，并比较各种方法之间的异同。

最后，展望了该领域技术进一步发展的前景。

作者 | Junjun Jiang, Chenyang Wang, Xianming Liu, Jiayi Ma

单位 | 哈尔滨工业大学；武汉大学

论文 | https://arxiv.org/abs/2101.03749

单分类综述

One-Class Classification: A Survey

单类分类(OCC)是多类分类的一种特殊情况，在训练过程中来自 single positive class 观察到的数据。OCC 的目标是学习一个表示和/或一个分类器，使其在推理过程中能够识别正向标签的查询。

近年来，这一主题在计算机视觉、机器学习和生物识别学界受到了相当大的关注。在本次调研中，作者对经典的统计方法和近期基于深度学习的视觉识别 OCC方法进行了调查。讨论了现有 OCC 方法的优点和缺点，并确定了该领域有前途的研究方向。此外，还对 OCC 常用的数据集和评估指标进行了讨论。

作者 | Pramuditha Perera, Poojan Oza, Vishal M. Patel

单位 | 约翰斯·霍普金斯大学

论文 | https://arxiv.org/abs/2101.03064

人员重识别综述

『Deep Learning for Person Re-identification: A Survey and Outlook』

是 TPAMI 2021 最新文章，对深度学习行人重识别的综述与展望，第一作者来自武汉大学的叶茫，上周在我爱计算机视觉公众号也发布了本篇文章的详细解读，感兴趣的读者可以查看【深度学习行人重识别综述与展望，TPAMI 2021 最新文章】

行为识别综述

Human Activity Recognition using Wearable Sensors: Review, Challenges, Evaluation Benchmark

本次调查中，作者对近期基于可穿戴传感器的人类活动识别中的优异表现方法进行了广泛回顾。

由于缺乏标准化的评价，为了评估和确保最先进的技术之间的公平比较，作者利用六个公开的数据集 MHealth, USCHAD, UTD-MHAD, WISDM, WHARF, and OPPORTUNITY，对最先进的技术进行了标准化的评估基准。

同时提出一种实验性的改进方法，先利用特征工程提取特征，然后采用 3 层神经网络架构，以此混合实验进行人类活动识别。在同样的标准化评估基准下，实验表明该混合实验具有较强的泛化能力和较高的识别精度，在 MHealth、USCHAD、UTD-1 和 UTD-2 数据集上的表现优于所有的先进技术。

作者 | Reem Abdel-Salam, Rana Mostafa, Mayada Hadhood

单位 | 埃及开罗大学

论文 | https://arxiv.org/abs/2101.01665

遥感土地利用分析综述

Urban land-use analysis using proximate sensing imagery: a survey是对 proximate sensing 支持土地利用分析的最先进方法和公开的数据集进行了全面回顾。

作者 | Zhinan Qiao, Xiaohui Yuan

论文 | https://arxiv.org/abs/2101.04827

深度神经网络综述

Hyperbolic Deep Neural Networks: A Survey

本文围绕双曲深层神经网络构建中的神经组件，以及领先的深层方法在双曲空间的泛化，对文献进行了连贯而全面的回顾。

还介绍了当前在几个公开可用的数据集上围绕各种机器学习任务的应用，以及有洞察力的见地和确定开放的问题和有前途的未来方向。

authors | Wei Peng, Tuomas Varanka, Abdelrahman Mostafa, Henglin Shi, Guoying Zhao

units | 芬兰奥卢大学

paper | https://arxiv.org/abs/2101.04562

注：以上综述论文文章可在『OpenCV中文网』公众号后台回复【综述】获得百度云下载地址。

- END -

编译：CV君

转载请联系本公众号授权

推荐几篇近期必看的视觉综述，含GAN、Transformer、人脸超分辨、遥感等

GAN综述

Transformer 综述

人脸超分辨率综述

单分类综述

人员重识别综述

行为识别综述

遥感土地利用分析综述

深度神经网络综述

我爱计算机视觉

引用和评论

Kaggle竞赛中使用YoloV5将物体检测的性能翻倍的心路历程

一文掌握 MCP 上下文协议：从理论到实践

AI Agent爆火后，MCP协议为什么如此重要！

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略

常见的 AI 模型格式