EXITS:基于极值点低标注成本弱监督实例分割 | CVPR 2024

8 月 26 日
阅读 9 分钟
179
EXITS将极值点视为真实实例掩模的一部分并将它们传播以识别潜在前景和背景点,所有这些都用于训练伪标签生成器,然后由生成器给出的伪标签反过来用于最终模型的监督学习。来源:晓飞的算法工程笔记 公众号
封面图

Swahili-text:华中大推出非洲语言场景文本检测和识别数据集 | ICDAR 2024

8 月 26 日
阅读 5 分钟
117
论文提出了一个专门针对斯瓦希里语自然场景文本检测和识别的数据集,这在当前研究中是一个未充分开发的语言领域。数据集包括976张带标注的场景图像,可用于文本检测,以及8284张裁剪后的图像用于识别。来源:晓飞的算法工程笔记 公众号
封面图

DLAFormer:微软提出多任务统一的端到端文本分析Transformer模型 | ICDAR 2024

8 月 22 日
阅读 6 分钟
152
论文提出新颖的基于Transformer的端到端方法DLAFormer,在统一的模型中集成多个文档布局分析任务,包括图形页面对象检测、文本区域检测、逻辑角色分类和阅读顺序预测。为了实现这一目标,将各种DLA子任务视为关系预测问题并提出了统一标签空间方法,使得统一关系预测模块能够有效而高效地同时处理这些任务来源:晓飞的算...
封面图

SLAB:华为开源,通过线性注意力和PRepBN提升Transformer效率 | ICML 2024

8 月 22 日
阅读 6 分钟
262
论文提出了包括渐进重参数化批归一化和简化线性注意力在内的新策略,以获取高效的Transformer架构。在训练过程中逐步将LayerNorm替换为重参数化批归一化,以实现无损准确率,同时在推理阶段利用BatchNorm的高效优势。此外,论文设计了一种简化的线性注意力机制,其在计算成本较低的情况下达到了与其他线性注意力方法可比...
封面图

BVS:多强联手,李飞飞也参与的超强仿真数据生成工具,再掀数据狂潮 | CVPR 2024

8 月 20 日
阅读 4 分钟
193
BEHAVIOR Vision Suite(BVS)是一个新型工具包,旨在系统评估和全面理解计算机视觉模型。研究人员能够在场景、对象和相机级别控制各种参数,有助于创建高度定制的数据集。来源:晓飞的算法工程笔记 公众号
封面图

DMS:直接可微的网络搜索方法,最快仅需单卡10分钟 | ICML 2024

8 月 20 日
阅读 8 分钟
137
Differentiable Model Scaling(DMS)以直接、完全可微的方式对宽度和深度进行建模,是一种高效且多功能的模型缩放方法。与先前的NAS方法相比具有三个优点:1)DMS在搜索方面效率高,易于使用。2)DMS实现了高性能,可与SOTA NAS方法相媲美。3)DMS是通用的,与各种任务和架构兼容。来源:晓飞的算法工程笔记 公众号
封面图

EfficientMod:微软出品,高效调制主干网络 | ICLR 2024

8 月 19 日
阅读 10 分钟
173
Efficient Modulation (EfficientMod) 融合了卷积和注意力机制的有利特性,同时提取空间上下文并对输入特征进行投影,然后使用简单的逐元素乘法将其融合在一起。EfficientMod的设计保证了高效性,而固有的调制设计理念则保证了其强大的表示能力来源:晓飞的算法工程笔记 公众号
封面图

RealNet:从数据生成到模型训练的最新工业异常检测 | CVPR 2024

8 月 19 日
阅读 9 分钟
282
论文提出了一种创新的自监督异常检测框架RealNet,集成了三个核心组件:可控制强度的扩散异常合成(SDAS)、异常感知特征选择(AFS)和重构残差选择(RRS)。这些组件通过协同作用,使RealNet能够有效地利用大规模预训练模型来进行异常检测,同时保持计算开销在合理的低范围内。RealNet为未来利用预训练特征重构技术进行...
封面图

Efficient DETR:别再随机初始化了,旷视提出单解码层的高效DETR | CVPR 2021

8 月 16 日
阅读 6 分钟
316
Efficient DETR结合密集检测和稀疏集合检测的优点,利用密集先验来初始化对象容器,弥补单层解码器结构与 6 层解码器结构的差距。在MS COCO上进行的实验表明,仅 3 个编码器层和 1 个解码器层即可实现与最先进的目标检测方法竞争的性能,在CrowdHuman密集数据集上的性能也远远优于其它检测器来源:晓飞的算法工程笔记 公...

SMCA:港中文提出注意力图校准的DETR加速方案 | ICCV 2021

8 月 16 日
阅读 7 分钟
161
为了加速DETR收敛,论文提出了简单而有效的Spatially Modulated Co-Attention(SMCA)机制,通过在初始边界框位置给予较高的协同注意力响应值的约束来构建DETR的回归感知协同注意力。此外,将SMCA扩展为多头注意力和尺度选择注意力后,对比DETR可以实现更好的性能(108周期45.6 mAP vs 500周期43.3 mAP)来源:晓飞的算...
封面图

TSP-Detection:CMU 提出抛弃交叉注意力的 DETR 变体 | ICCV 2021

8 月 15 日
阅读 9 分钟
178
DETR基于Transformer将目标检测视为集合预测问题,实现了最先进的性能,但需要超长的训练时间才能收敛。论文研究了DETR优化困难的原因,揭示了收敛缓慢因素主要是匈牙利损失和Transformer交叉注意机制。为了克服这些问题,论文提出了两种解决方案,即TSP-FCOS(基于Transformer的FCOS集合预测)和TSP-RCNN(基于Transfor...
封面图

Deformable DETR:商汤提出可变型 DETR,提点又加速 | ICLR 2021 Oral

8 月 15 日
阅读 7 分钟
356
DETR能够消除物体检测中许多手工设计组件的需求,同时展示良好的性能。但由于注意力模块在处理图像特征图方面的限制,DETR存在收敛速度慢和特征分辨率有限的问题。为了缓解这些问题,论文提出了Deformable DETR,其注意力模块仅关注参考点周围的一小组关键采样点,通过更少的训练次数实现比DETR更好的性能来源:晓飞的算...
封面图

DeiT-LT:印度科学院提出针对长尾数据的`DeiT`升级模型 | CVPR 2024

8 月 14 日
阅读 5 分钟
185
DeiT-LT为ViT在长尾数据集上的应用,通过蒸馏DIST标记引入CNN知识,以及使用分布外图像并重新加权蒸馏损失来增强对尾类的关注。此外,为了减轻过拟合,论文建议用经过SAM训练的CNN教师进行蒸馏,促使所有ViT块中DIST标记学习低秩泛化特征。经过DeiT-LT的训练方案,DIST标记成为尾类的专家,分类器CLS标记成为头类的专家...
封面图

StarNet:关于 Element-wise Multiplication 的高性能解释研究 | CVPR 2024

8 月 14 日
阅读 7 分钟
155
论文揭示了star operation(元素乘法)在无需加宽网络下,将输入映射到高维非线性特征空间的能力。基于此提出了StarNet,在紧凑的网络结构和较低的能耗下展示了令人印象深刻的性能和低延迟来源:晓飞的算法工程笔记 公众号
封面图

DRM:清华提出无偏差的新类发现与定位新方法 | CVPR 2024

8 月 13 日
阅读 4 分钟
260
论文分析了现有的新类别发现和定位(NCDL)方法并确定了核心问题:目标检测器往往偏向已知的目标,忽略未知的目标。为了解决这个问题,论文提出了去偏差区域挖掘(DRM)方法,以互补的方式结合类无关RPN和类感知RPN进行目标定位,利用未标记数据的半监督对比学习来改进表征网络,以及采用简单高效的mini-batch K-means聚...
封面图

DSCL:已开源,北京大学提出解耦对比损失 | AAAI 2024

7 月 24 日
阅读 9 分钟
382
监督对比损失(SCL)在视觉表征学习中很流行。但在长尾识别场景中,由于每类样本数量不平衡,对两类正样本进行同等对待会导致类内距离的优化出现偏差。此外,SCL忽略了负样本之间的相似关系的语义线索。为了提高长尾识别的性能,论文通过解耦训练目标来解决SCL的这两个问题,将SCL中的原正样本和增强正样本解耦并针对不...
封面图

OLOR:已开源,向预训练权值对齐的强正则化方法 | AAAI 2024

7 月 23 日
阅读 6 分钟
147
随着预训练视觉模型的兴起,目前流行的视觉微调方法是完全微调。由于微调只专注于拟合下游训练集,因此存在知识遗忘的问题。论文提出了基于权值回滚的微调方法OLOR(One step Learning, One step Review),把权值回滚项合并到优化器的权值更新项中。这保证了上下游模型权值范围的一致性,有效减少知识遗忘并增强微调性...
封面图

ScaleDet:AWS 基于标签相似性提出可扩展的多数据集目标检测器 | CVPR 2023

7 月 22 日
阅读 8 分钟
164
论文提出了一种可扩展的多数据集目标检测器(ScaleDet),可通过增加训练数据集来扩大其跨数据集的泛化能力。与现有的主要依靠手动重新标记或复杂的优化来统一跨数据集标签的多数据集学习器不同,论文引入简单且可扩展的公式来为多数据集训练产生语义统一的标签空间,通过视觉文本对齐进行训练,能够学习跨数据集的标签语...
封面图

MViTv2:Facebook出品,进一步优化的多尺度ViT | CVPR 2022

7 月 18 日
阅读 7 分钟
365
论文将Multiscale Vision Transformers (MViTv2) 作为图像和视频分类以及对象检测的统一架构进行研究,结合分解的相对位置编码和残差池化连接提出了MViT的改进版本来源:晓飞的算法工程笔记 公众号
封面图

MViT:性能杠杠的多尺度ViT | ICCV 2021

7 月 17 日
阅读 7 分钟
326
论文提出了多尺度视觉Transformer模型MViT,将多尺度层级特征的基本概念与Transformer模型联系起来,在逐层扩展特征复杂度同时降低特征的分辨率。在视频识别和图像分类的任务中,MViT均优于单尺度的ViT。来源:晓飞的算法工程笔记 公众号
封面图

LeViT:Facebook提出推理优化的混合ViT主干网络 | ICCV 2021

7 月 16 日
阅读 6 分钟
157
论文提出了用于快速图像分类推理的混合神经网络LeVIT,在不同的硬件平台上进行不同的效率衡量标准的测试。总体而言,LeViT在速度/准确性权衡方面明显优于现有的卷积神经网络和ViT,比如在80%的ImageNet top-1精度下,LeViT在CPU上比EfficientNet快5倍来源:晓飞的算法工程笔记 公众号
封面图

CaiT:Facebook提出高性能深度ViT结构 | ICCV 2021

7 月 15 日
阅读 6 分钟
192
CaiT通过LayerScale层来保证深度ViT训练的稳定性,加上将特征学习和分类信息提取隔离的class-attention层达到了很不错的性能,值得看看 来源:晓飞的算法工程笔记 公众号
封面图

还在困惑需要多少数据吗?来看看这份估计指南 | CVPR 2022

7 月 12 日
阅读 8 分钟
420
论文: How Much More Data Do I Need? Estimating Requirements for Downstream Tasks
封面图

CvT:微软提出结合CNN的ViT架构 | 2021 arxiv

7 月 10 日
阅读 5 分钟
292
CvT将Transformer与CNN在图像识别任务中的优势相结合,从CNN中借鉴了多阶段的层级结构设计,同时引入了Convolutional Token Embedding和Convolutional Projection操作增强局部建模能力,在保持计算效率的同时实现了卓越的性能。此外,由于卷积的引入增强了局部上下文建模能力,CvT不再需要position Embedding,这使其在...
封面图

DeepViT:字节提出深层ViT的训练策略 | 2021 arxiv

7 月 9 日
阅读 6 分钟
294
作者发现深层ViT出现的注意力崩溃问题,提出了新颖的Re-attention机制来解决,计算量和内存开销都很少,在增加ViT深度时能够保持性能不断提高 来源:晓飞的算法工程笔记 公众号
封面图

DDP:微软提出动态detection head选择,适配计算资源有限场景 | CVPR 2022

7 月 8 日
阅读 6 分钟
169
DPP能够对目标检测proposal进行非统一处理,根据proposal选择不同复杂度的算子,加速整体推理过程。从实验结果来看,效果非常不错来源:晓飞的算法工程笔记 公众号
封面图

DVT:华为提出动态级联Vision Transformer,性能杠杠的 | NeurIPS 2021

7 月 3 日
阅读 8 分钟
180
论文主要处理Vision Transformer中的性能问题,采用推理速度不同的级联模型进行速度优化,搭配层级间的特征复用和自注意力关系复用来提升准确率。从实验结果来看,性能提升不错 来源:晓飞的算法工程笔记 公众号
封面图

Swin Transformer:最佳论文,准确率和性能双佳的视觉Transformer | ICCV 2021

7 月 2 日
阅读 7 分钟
609
论文提出了经典的Vision Transormer模型Swin Transformer,能够构建层级特征提高任务准确率,而且其计算复杂度经过各种加速设计,能够与输入图片大小成线性关系。从实验结果来看,Swin Transormer在各视觉任务上都有很不错的准确率,而且性能也很高   来源:晓飞的算法工程笔记 公众号
封面图

CeiT:商汤提出结合CNN优势的高效ViT模型 | 2021 arxiv

5 月 23 日
阅读 5 分钟
646
论文提出CeiT混合网络,结合了CNN在提取低维特征方面的局部性优势以及Transformer在建立长距离依赖关系方面的优势。CeiT在ImageNet和各种下游任务中达到了SOTA,收敛速度更快,而且不需要大量的预训练数据和额外的CNN蒸馏监督,值得借鉴 来源:晓飞的算法工程笔记 公众号
封面图

PVT:特征金字塔在Vision Transormer的首次应用,又快又好 | ICCV 2021

5 月 22 日
阅读 7 分钟
576
论文设计了用于密集预测任务的纯Transformer主干网络PVT,包含渐进收缩的特征金字塔结构和spatial-reduction attention层,能够在有限的计算资源和内存资源下获得高分辨率和多尺度的特征图。从物体检测和语义分割的实验可以看到,PVT在相同的参数数量下比CNN主干网络更强大 来源:晓飞的算法工程笔记 公众号
封面图