晓飞的算法工程笔记 - SegmentFault 思否

CPVT：美团提出动态位置编码，让ViT的输入更灵活 | ICLR 2023

4 月 16 日

阅读 6 分钟

10

论文提出了一种新的ViT位置编码CPE，基于每个token的局部邻域信息动态地生成对应位置编码。CPE由卷积实现，使得模型融合CNN和Transfomer的优点，不仅可以处理较长的输入序列，也可以在视觉任务中保持理想的平移不变性。从实验结果来看，基于CPE的CPVT比以前的位置编码方法效果更好来源：晓飞的算法工程笔记公众号

封面图

DeiT：训练ImageNet仅用4卡不到3天的平民ViT | ICML 2021

4 月 16 日

阅读 5 分钟

8

论文基于改进训练配置以及一种新颖的蒸馏方式，提出了仅用ImageNet就能训练出来的Transformer网络DeiT。在蒸馏学习时，DeiT以卷积网络作为teacher，能够结合当前主流的数据增强和训练策略来进一步提高性能。从实验结果来看，效果很不错来源：晓飞的算法工程笔记公众号

封面图

ViT：拉开Trasnformer在图像领域正式挑战CNN的序幕 | ICLR 2021

4 月 12 日

阅读 5 分钟

9

论文直接将纯Trasnformer应用于图像识别，是Trasnformer在图像领域正式挑战CNN的开山之作。这种简单的可扩展结构在与大型数据集的预训练相结合时，效果出奇的好。在许多图像分类数据集上都符合或超过了SOTA，同时预训练的成本也相对较低   来源：晓飞的算法工程笔记公众号

封面图

Dynamic ATSS：预测结果才是正负样本区分的最佳准则

4 月 10 日

阅读 4 分钟

5

论文认为预测结果能够更准确地区分正负样本，提出结合预测结果IoU和anchor IoU来准确地选择最高质量的预测结果进行网络训练。整体算法简单但十分有效，值得看看   来源：晓飞的算法工程笔记公众号

封面图

DS-Net：可落地的动态网络，实际加速1.62倍，快改造起来 | CVPR 2021 Oral

4 月 9 日

阅读 7 分钟

20

论文提出能够适配硬件加速的动态网络DS-Net，通过提出的double-headed动态门控来实现动态路由。基于论文提出的高性能网络设计和IEB、SGS训练策略，仅用1/2-1/4的计算量就能达到静态SOTA网络性能，实际加速也有1.62倍   来源：晓飞的算法工程笔记公众号

封面图

CondeseNetV2：清华与华为出品，保持特征的新鲜是特征复用的关键｜ CVPR 2021

4 月 8 日

阅读 6 分钟

30

论文提出SFR模块，直接重新激活一组浅层特征来提升其在后续层的复用效率，而且整个重激活模式可端到端学习。由于重激活的稀疏性，额外引入的计算量非常小。从实验结果来看，基于SFR模块提出的CondeseNetV2性能还是很不错的，值得学习   来源：晓飞的算法工程笔记公众号

封面图

基于energy score的out-of-distribution数据检测，LeCun都说好 | NerulPS 2020

4 月 1 日

阅读 5 分钟

39

 论文提出用于out-of-distributions输入检测的energy-based方案，通过非概率的energy score区分in-distribution数据和out-of-distribution数据。不同于softmax置信度，energy score能够对齐输入数据的密度，提升OOD检测的准确率，对算法的实际应用有很大的意义来源：晓飞的算法工程笔记公众号

封面图

LiftPool：双向池化操作，细节拉满，再也不怕丢特征了 | ICLR 2021

3 月 31 日

阅读 5 分钟

39

论文参考信号处理中提升方案提出双向池化操作LiftPool，不仅下采样时能保留尽可能多的细节，上采样时也能恢复更多的细节。从实验结果来看，LiftPool对图像分类能的准确率和鲁棒性都有不错的提升，而对语义分割的准确性更能有可观的提升。不过目前论文还在准备开源阶段，期待开源后的复现，特别是在速度和显存方面结果 &#...

封面图

EfficientNetV2：谷歌又来了，最小的模型，最高的准确率，最快的训练速度 | ICML 2021

3 月 31 日

阅读 6 分钟

74

 论文基于training-aware NAS和模型缩放得到EfficientNetV2系列，性能远优于目前的模型。另外，为了进一步提升训练速度，论文提出progressive learning训练方法，在训练过程中同时增加输入图片尺寸和正则化强度。从实验结果来看，EfficientNetV2的效果非常不错。来源：晓飞的算法工程笔记公众号

封面图

Hybrid-PSC：基于对比学习的混合网络，解决长尾图片分类 | CVPR 2021

3 月 29 日

阅读 6 分钟

44

 论文提出新颖的混合网络用于解决长尾图片分类问题，该网络由用于图像特征学习的对比学习分支和用于分类器学习的交叉熵分支组成，在训练过程逐步将训练权重调整至分类器学习，达到更好的特征得出更好的分类器的思想。另外，为了节省内存消耗，论文提出原型有监督对比学习。从实验结果来看，论文提出的方法效果还是...

封面图

YOLOF：单层特征检测也可以比FPN更出色 | CVPR 2021

3 月 29 日

阅读 5 分钟

54

 论文通过分析发现FPN的成功在于divide-and-conquer策略解决了目标检测的优化问题，借此研究设计了仅用单层特征预测的高效检测网络YOLOF。YOLOF在结构上没有很多花哨的结构，却在准确率、推理速度和收敛速度上都有不错的提升，相对于眼花缭乱的FPN魔改结构，十分值得学习来源：晓飞的算法工程笔记公众号

封面图

为什么SOTA网络在你的数据集上不行？来看看Imagnet结果的迁移能力研究

3 月 28 日

阅读 5 分钟

46

 论文通过实验证明，ImageNet上的模型并不总能泛化到其他数据集中，甚至可能是相反的，而模型的深度和宽度也会影响迁移的效果。  如果需要参考，可选择类别数与当前任务相似的数据集上的模型性能。论文通过大量的实验来验证猜想，虽然没有研究出如通过数据集间的某些特性来直接判断模型迁移效果这样的成果，...

封面图

OREPA：阿里提出训练也很快的重参数策略，内存减半，速度加倍 | CVPR 2022

2022-07-20

阅读 5 分钟

895

论文提出了在线重参数方法OREPA，在训练阶段就能将复杂的结构重参数为单卷积层，从而降低大量训练的耗时。为了实现这一目标，论文用线性缩放层代替了训练时的BN层，保持了优化方向的多样性和特征表达能力。从实验结果来看，OREPA在各种任务上的准确率和效率都很不错   来源：晓飞的算法工程笔记公众号

GIT：斯坦福大学提出应对复杂变换的不变性提升方法 | ICLR 2022

2022-07-18

阅读 5 分钟

556

论文对长尾数据集中的复杂变换不变性进行了研究，发现不变性在很大程度上取决于类别的图片数量，实际上分类器并不能将从大类中学习到的不变性转移到小类中。为此，论文提出了GIT生成模型，从数据集中学习到类无关的复杂变换，从而在训练时对小类进行有效增强，整体效果不错   来源：晓飞的算法工程笔记公众号

封面图

看看谷歌如何在目标检测任务使用预训练权值 | CVPR 2022

2022-07-13

阅读 7 分钟

687

论文提出能够适配硬件加速的动态网络DS-Net，通过提出的double-headed动态门控来实现动态路由。基于论文提出的高性能网络设计和IEB、SGS训练策略，仅用1/2-1/4的计算量就能达到静态SOTA网络性能，实际加速也有1.62倍   来源：晓飞的算法工程笔记公众号

封面图

DW：优化目标检测训练过程，更全面的正负权重计算 | CVPR 2022

2022-07-12

阅读 6 分钟

906

论文提出自适应的label assignment方法DW，打破了以往耦合加权的惯例。根据不同角度的一致性和非一致性指标，动态地为anchor分配独立的pos权重和neg权重，可以更全面地监督训练。此外，论文还提出了新的预测框精调操作，在回归特征图上直接精调预测框   来源：晓飞的算法工程笔记公众号

封面图

PLC：自动纠正数据集噪声，来洗洗数据集吧 | ICLR 2021 Spotlight

2022-07-07

阅读 5 分钟

666

 论文提出了更通用的特征相关噪声类别PMD，基于此类噪声构建了数据校准策略PLC来帮助模型更好地收敛，在生成数据集和真实数据集上的实验证明了其算法的有效性。论文提出的方案理论证明完备，应用起来十分简单，值得尝试来源：晓飞的算法工程笔记公众号

封面图

ResNet-RS：谷歌领衔调优ResNet，性能全面超越EfficientNet系列 | 2021 arxiv

2022-07-06

阅读 6 分钟

815

论文重新审视了ResNet的结构、训练方法以及缩放策略，提出了性能全面超越EfficientNet的ResNet-RS系列。从实验效果来看性能提升挺高的，值得参考   来源：晓飞的算法工程笔记公众号

封面图

RepLKNet：不是大卷积不好，而是卷积不够大，31x31卷积了解一下 | CVPR 2022

2022-07-05

阅读 7 分钟

820

论文提出引入少数超大卷积核层来有效地扩大有效感受域，拉近了CNN网络与ViT网络之间的差距，特别是下游任务中的性能。整篇论文阐述十分详细，而且也优化了实际运行的表现，值得读一读、试一试   来源：晓飞的算法工程笔记公众号

封面图

CA：用于移动端的高效坐标注意力机制 | CVPR 2021

2022-07-04

阅读 4 分钟

1k

论文提出新颖的轻量级通道注意力机制coordinate attention，能够同时考虑通道间关系以及长距离的位置信息。通过实验发现，coordinate attention可有效地提升模型的准确率，而且仅带来少量的计算消耗，十分不错来源：晓飞的算法工程笔记公众号

封面图

GID：旷视提出全方位的检测模型知识蒸馏 | CVPR 2021

2022-07-01

阅读 5 分钟

651

论文提出的GID框架能够自动选择可辨别目标用于知识蒸馏，而且综合了feature-based、relation-based和response-based知识，全方位蒸馏，适用于不同的检测框架中。从实验结果来看，效果十分不错，值得一看来源：晓飞的算法工程笔记公众号

封面图

GWD：基于高斯Wasserstein距离的旋转目标检测 | ICML 2021

2022-06-29

阅读 6 分钟

981

  论文详细描述了当前旋转目标检测的主要问题，提出将旋转回归目标定义为高斯分布，使用Wasserstein距离度量高斯分布间的距离用于训练。目前，常规目标检测也有很多将回归转化为概率分布函数的做法，本文有异曲同工之妙，值得阅读来源：晓飞的算法工程笔记公众号

封面图

PSS：你距离NMS-free+提点只有两个卷积层 | 2021论文

2022-06-27

阅读 4 分钟

548

  论文提出了简单高效的PSS分支，仅需在原网络的基础上添加两个卷积层就能去掉NMS后处理，还能提升模型的准确率，而stop-grad的训练方法也挺有意思的，值得一看来源：晓飞的算法工程笔记公众号

封面图

CAP：多重注意力机制，有趣的细粒度分类方案 | AAAI 2021

2022-06-24

阅读 5 分钟

752

论文提出细粒度分类解决方案CAP，通过上下文感知的注意力机制来帮助模型发现细微的特征变化。除了像素级别的注意力机制，还有区域级别的注意力机制以及局部特征编码方法，与以往的视觉方案很不同，值得一看来源：晓飞的算法工程笔记公众号

封面图

NFNet：NF-ResNet的延伸，不用BN的4096超大batch size训练 | 21年论文

2022-06-23

阅读 6 分钟

586

论文认为Batch Normalization并不是网络的必要构造，反而会带来不少问题，于是开始研究Normalizer-Free网络，希望既有相当的性能也能支持大规模训练。论文提出ACG梯度裁剪方法来辅助训练，能有效防止梯度爆炸，另外还基于NF-ResNet的思想将SE-ResNet改造成NFNet系列，可以使用4096的超大batch size进行训练，性能超越了E...

封面图

NF-ResNet：去掉BN归一化，值得细读的网络信号分析 | ICLR 2021

2022-06-22

阅读 7 分钟

572

论文提出NF-ResNet，根据网络的实际信号传递进行分析，模拟BatchNorm在均值和方差传递上的表现，进而代替BatchNorm。论文实验和分析十分足，出来的效果也很不错。一些初始化方法的理论效果是对的，但实际使用会有偏差，论文通过实践分析发现了这一点进行补充，贯彻了实践出真知的道理来源：晓飞的算法工程笔记公众号

封面图

Involution：空间不共享？可完全替代卷积的高性能算子 | CVPR 2021

2022-06-20

阅读 4 分钟

577

其实这篇文章很早就写好了，但作者其它论文涉及到洗稿问题，所以先放着了。目前看这篇文章没被举报有洗稿的嫌疑，所以就发出来了 . 来源：晓飞的算法工程笔记公众号

封面图

GFLV2：边界框不确定性的进一步融合，提点神器 | CVPR 2021

2022-06-17

阅读 4 分钟

778

  GFLV2基于GFLV1的bbox分布进行改进，将分布的统计信息融入到定位质量估计中，整体思想十分创新和完备，从实验结果来看，效果还是挺不错的来源：晓飞的算法工程笔记公众号

封面图

MobileNext：打破常规，依图逆向改造inverted residual block | ECCV 2020

2022-06-16

阅读 5 分钟

798

论文深入分析了inverted residual block的设计理念和缺点，提出更适合轻量级网络的sandglass block，基于该结构搭建的MobileNext。根据论文的实验结果，MobileNext在参数量、计算量和准确率上都有更优的表现，唯一遗憾的是论文没有列出在设备上的实际用时，如果补充一下更好了来源：晓飞的算法工程笔记公众号

封面图

OWOD：开放世界目标检测，更贴近现实的检测场景 | CVPR 2021 Oral

2022-06-15

阅读 5 分钟

965

不同于以往在固定数据集上测试性能，论文提出了一个更符合实际的全新检测场景Open World Object Detection，需要同时识别出未知类别和已知类别，并不断地进行增量学习。论文还给出了ORE解决方案，通过对比聚类和基于能量的分类器来进行开放开放世界的检测训练   来源：晓飞的算法工程笔记公众号

封面图

1

1