晓飞的算法工程笔记 - SegmentFault 思否

CSEC：香港城市大学提出SOTA曝光矫正算法 | CVPR 2024

2024-08-28

阅读 7 分钟

732

在光照条件不佳下捕获的图像可能同时包含过曝和欠曝。目前的方法主要集中在调整图像亮度上，这可能会加剧欠曝区域的色调失真，并且无法恢复过曝区域的准确颜色。论文提出通过学习估计和校正这种色调偏移，来增强既有过曝又有欠曝的图像。先通过基于UNet的网络推导输入图像的增亮和变暗版本的色彩特征图，然后使用伪正常...

FlexAttention：解决二次复杂度问题，将大型视觉语言模型的输入提升至1008 | ECCV 2024

2024-08-28

阅读 7 分钟

615

${\tt FlexAttention}$ 是一种旨在增强大型视觉语言模型的方法，通过利用动态高分辨率特征选择和分层自注意机制，使其能够有效地处理并从高分辨率图像输入中获得优势， ${\tt FlexAttention}$ 在性能和效率方面超越了现有的高分辨率方法。来源：晓飞的算法工程笔记公众号

封面图

Bi-MTDP：通过二值网络加速多任务密集预测，又快又提点 | CVPR 2024

2024-08-27

阅读 9 分钟

528

论文提出二值化多任务密集预测器 Bi-MTDP，通过二值神经网络（BNNs）显著加速多任务密集预测模型，同时保持甚至提高模型性能。为了避免信息严重退化而导致二值化带来性能下降，论文引入了深度信息瓶颈层，在前向传播时强制要求下游任务表示满足高斯分布；此外，还引入知识蒸馏机制来纠正反向传播中信息流方向来源：晓飞...

封面图

One-for-All：上交大提出视觉推理的符号化与逻辑推理分离的新范式 | ECCV 2024

2024-08-27

阅读 8 分钟

895

通过对多样化基准的严格评估，论文展示了现有特定方法在实现跨领域推理以及其偏向于数据偏差拟合方面的缺陷。从两阶段的视角重新审视视觉推理：（1）符号化和（2）基于符号或其表示的逻辑推理，发现推理阶段比符号化更擅长泛化。因此，更高效的做法是通过为不同数据领域使用分离的编码器来实现符号化，同时使用共享的推...

封面图

EXITS：基于极值点低标注成本弱监督实例分割 | CVPR 2024

2024-08-26

阅读 9 分钟

550

EXITS将极值点视为真实实例掩模的一部分并将它们传播以识别潜在前景和背景点，所有这些都用于训练伪标签生成器，然后由生成器给出的伪标签反过来用于最终模型的监督学习。来源：晓飞的算法工程笔记公众号

封面图

Swahili-text：华中大推出非洲语言场景文本检测和识别数据集 | ICDAR 2024

2024-08-26

阅读 5 分钟

471

论文提出了一个专门针对斯瓦希里语自然场景文本检测和识别的数据集，这在当前研究中是一个未充分开发的语言领域。数据集包括976张带标注的场景图像，可用于文本检测，以及8284张裁剪后的图像用于识别。来源：晓飞的算法工程笔记公众号

封面图

DLAFormer：微软提出多任务统一的端到端文本分析Transformer模型 | ICDAR 2024

2024-08-22

阅读 6 分钟

438

论文提出新颖的基于Transformer的端到端方法DLAFormer，在统一的模型中集成多个文档布局分析任务，包括图形页面对象检测、文本区域检测、逻辑角色分类和阅读顺序预测。为了实现这一目标，将各种DLA子任务视为关系预测问题并提出了统一标签空间方法，使得统一关系预测模块能够有效而高效地同时处理这些任务来源：晓飞的算...

封面图

SLAB：华为开源，通过线性注意力和PRepBN提升Transformer效率 | ICML 2024

2024-08-22

阅读 6 分钟

820

论文提出了包括渐进重参数化批归一化和简化线性注意力在内的新策略，以获取高效的Transformer架构。在训练过程中逐步将LayerNorm替换为重参数化批归一化，以实现无损准确率，同时在推理阶段利用BatchNorm的高效优势。此外，论文设计了一种简化的线性注意力机制，其在计算成本较低的情况下达到了与其他线性注意力方法可比...

封面图

BVS：多强联手，李飞飞也参与的超强仿真数据生成工具，再掀数据狂潮 | CVPR 2024

2024-08-20

阅读 4 分钟

477

BEHAVIOR Vision Suite（BVS）是一个新型工具包，旨在系统评估和全面理解计算机视觉模型。研究人员能够在场景、对象和相机级别控制各种参数，有助于创建高度定制的数据集。来源：晓飞的算法工程笔记公众号

封面图

DMS：直接可微的网络搜索方法，最快仅需单卡10分钟 | ICML 2024

2024-08-20

阅读 8 分钟

395

Differentiable Model Scaling（DMS）以直接、完全可微的方式对宽度和深度进行建模，是一种高效且多功能的模型缩放方法。与先前的NAS方法相比具有三个优点：1）DMS在搜索方面效率高，易于使用。2）DMS实现了高性能，可与SOTA NAS方法相媲美。3）DMS是通用的，与各种任务和架构兼容。来源：晓飞的算法工程笔记公众号

封面图

EfficientMod：微软出品，高效调制主干网络 | ICLR 2024

2024-08-19

阅读 10 分钟

490

Efficient Modulation (EfficientMod) 融合了卷积和注意力机制的有利特性，同时提取空间上下文并对输入特征进行投影，然后使用简单的逐元素乘法将其融合在一起。EfficientMod的设计保证了高效性，而固有的调制设计理念则保证了其强大的表示能力来源：晓飞的算法工程笔记公众号

封面图

RealNet：从数据生成到模型训练的最新工业异常检测 | CVPR 2024

2024-08-19

阅读 9 分钟

786

论文提出了一种创新的自监督异常检测框架RealNet，集成了三个核心组件：可控制强度的扩散异常合成（SDAS）、异常感知特征选择（AFS）和重构残差选择（RRS）。这些组件通过协同作用，使RealNet能够有效地利用大规模预训练模型来进行异常检测，同时保持计算开销在合理的低范围内。RealNet为未来利用预训练特征重构技术进行...

封面图

Efficient DETR：别再随机初始化了，旷视提出单解码层的高效DETR | CVPR 2021

2024-08-16

阅读 6 分钟

653

Efficient DETR结合密集检测和稀疏集合检测的优点，利用密集先验来初始化对象容器，弥补单层解码器结构与 6 层解码器结构的差距。在MS COCO上进行的实验表明，仅 3 个编码器层和 1 个解码器层即可实现与最先进的目标检测方法竞争的性能，在CrowdHuman密集数据集上的性能也远远优于其它检测器来源：晓飞的算法工程笔记公...

SMCA：港中文提出注意力图校准的DETR加速方案 | ICCV 2021

2024-08-16

阅读 7 分钟

417

为了加速DETR收敛，论文提出了简单而有效的Spatially Modulated Co-Attention（SMCA）机制，通过在初始边界框位置给予较高的协同注意力响应值的约束来构建DETR的回归感知协同注意力。此外，将SMCA扩展为多头注意力和尺度选择注意力后，对比DETR可以实现更好的性能（108周期45.6 mAP vs 500周期43.3 mAP）来源：晓飞的算...

封面图

TSP-Detection：CMU 提出抛弃交叉注意力的 DETR 变体 | ICCV 2021

2024-08-15

阅读 9 分钟

521

DETR基于Transformer将目标检测视为集合预测问题，实现了最先进的性能，但需要超长的训练时间才能收敛。论文研究了DETR优化困难的原因，揭示了收敛缓慢因素主要是匈牙利损失和Transformer交叉注意机制。为了克服这些问题，论文提出了两种解决方案，即TSP-FCOS（基于Transformer的FCOS集合预测）和TSP-RCNN（基于Transfor...

封面图

Deformable DETR：商汤提出可变型 DETR，提点又加速 | ICLR 2021 Oral

2024-08-15

阅读 7 分钟

934

DETR能够消除物体检测中许多手工设计组件的需求，同时展示良好的性能。但由于注意力模块在处理图像特征图方面的限制，DETR存在收敛速度慢和特征分辨率有限的问题。为了缓解这些问题，论文提出了Deformable DETR，其注意力模块仅关注参考点周围的一小组关键采样点，通过更少的训练次数实现比DETR更好的性能来源：晓飞的算...

封面图

DeiT-LT：印度科学院提出针对长尾数据的`DeiT`升级模型 | CVPR 2024

2024-08-14

阅读 5 分钟

547

DeiT-LT为ViT在长尾数据集上的应用，通过蒸馏DIST标记引入CNN知识，以及使用分布外图像并重新加权蒸馏损失来增强对尾类的关注。此外，为了减轻过拟合，论文建议用经过SAM训练的CNN教师进行蒸馏，促使所有ViT块中DIST标记学习低秩泛化特征。经过DeiT-LT的训练方案，DIST标记成为尾类的专家，分类器CLS标记成为头类的专家...

封面图

StarNet：关于 Element-wise Multiplication 的高性能解释研究 | CVPR 2024

2024-08-14

阅读 7 分钟

570

论文揭示了star operation（元素乘法）在无需加宽网络下，将输入映射到高维非线性特征空间的能力。基于此提出了StarNet，在紧凑的网络结构和较低的能耗下展示了令人印象深刻的性能和低延迟来源：晓飞的算法工程笔记公众号

封面图

DRM：清华提出无偏差的新类发现与定位新方法 | CVPR 2024

2024-08-13

阅读 4 分钟

851

论文分析了现有的新类别发现和定位（NCDL）方法并确定了核心问题：目标检测器往往偏向已知的目标，忽略未知的目标。为了解决这个问题，论文提出了去偏差区域挖掘（DRM）方法，以互补的方式结合类无关RPN和类感知RPN进行目标定位，利用未标记数据的半监督对比学习来改进表征网络，以及采用简单高效的mini-batch K-means聚...

封面图

DSCL：已开源，北京大学提出解耦对比损失 | AAAI 2024

2024-07-24

阅读 9 分钟

1.1k

监督对比损失（SCL）在视觉表征学习中很流行。但在长尾识别场景中，由于每类样本数量不平衡，对两类正样本进行同等对待会导致类内距离的优化出现偏差。此外，SCL忽略了负样本之间的相似关系的语义线索。为了提高长尾识别的性能，论文通过解耦训练目标来解决SCL的这两个问题，将SCL中的原正样本和增强正样本解耦并针对不...

封面图

OLOR：已开源，向预训练权值对齐的强正则化方法 | AAAI 2024

2024-07-23

阅读 6 分钟

398

随着预训练视觉模型的兴起，目前流行的视觉微调方法是完全微调。由于微调只专注于拟合下游训练集，因此存在知识遗忘的问题。论文提出了基于权值回滚的微调方法OLOR（One step Learning, One step Review），把权值回滚项合并到优化器的权值更新项中。这保证了上下游模型权值范围的一致性，有效减少知识遗忘并增强微调性...

封面图

ScaleDet：AWS 基于标签相似性提出可扩展的多数据集目标检测器 | CVPR 2023

2024-07-22

阅读 8 分钟

431

论文提出了一种可扩展的多数据集目标检测器(ScaleDet)，可通过增加训练数据集来扩大其跨数据集的泛化能力。与现有的主要依靠手动重新标记或复杂的优化来统一跨数据集标签的多数据集学习器不同，论文引入简单且可扩展的公式来为多数据集训练产生语义统一的标签空间，通过视觉文本对齐进行训练，能够学习跨数据集的标签语...

封面图

MViTv2：Facebook出品，进一步优化的多尺度ViT | CVPR 2022

2024-07-18

阅读 7 分钟

924

论文将Multiscale Vision Transformers (MViTv2) 作为图像和视频分类以及对象检测的统一架构进行研究，结合分解的相对位置编码和残差池化连接提出了MViT的改进版本来源：晓飞的算法工程笔记公众号

封面图

MViT：性能杠杠的多尺度ViT | ICCV 2021

2024-07-17

阅读 7 分钟

837

论文提出了多尺度视觉Transformer模型MViT，将多尺度层级特征的基本概念与Transformer模型联系起来，在逐层扩展特征复杂度同时降低特征的分辨率。在视频识别和图像分类的任务中，MViT均优于单尺度的ViT。来源：晓飞的算法工程笔记公众号

封面图

LeViT：Facebook提出推理优化的混合ViT主干网络 | ICCV 2021

2024-07-16

阅读 6 分钟

463

论文提出了用于快速图像分类推理的混合神经网络LeVIT，在不同的硬件平台上进行不同的效率衡量标准的测试。总体而言，LeViT在速度/准确性权衡方面明显优于现有的卷积神经网络和ViT，比如在80%的ImageNet top-1精度下，LeViT在CPU上比EfficientNet快5倍来源：晓飞的算法工程笔记公众号

封面图

CaiT：Facebook提出高性能深度ViT结构 | ICCV 2021

2024-07-15

阅读 6 分钟

562

CaiT通过LayerScale层来保证深度ViT训练的稳定性，加上将特征学习和分类信息提取隔离的class-attention层达到了很不错的性能，值得看看来源：晓飞的算法工程笔记公众号

封面图

还在困惑需要多少数据吗？来看看这份估计指南 | CVPR 2022

2024-07-12

阅读 8 分钟

998

论文: How Much More Data Do I Need? Estimating Requirements for Downstream Tasks

封面图

CvT：微软提出结合CNN的ViT架构 | 2021 arxiv

2024-07-10

阅读 5 分钟

530

CvT将Transformer与CNN在图像识别任务中的优势相结合，从CNN中借鉴了多阶段的层级结构设计，同时引入了Convolutional Token Embedding和Convolutional Projection操作增强局部建模能力，在保持计算效率的同时实现了卓越的性能。此外，由于卷积的引入增强了局部上下文建模能力，CvT不再需要position Embedding，这使其在...

封面图

DeepViT：字节提出深层ViT的训练策略 | 2021 arxiv

2024-07-09

阅读 6 分钟

575

作者发现深层ViT出现的注意力崩溃问题，提出了新颖的Re-attention机制来解决，计算量和内存开销都很少，在增加ViT深度时能够保持性能不断提高来源：晓飞的算法工程笔记公众号

封面图

DDP：微软提出动态detection head选择，适配计算资源有限场景 | CVPR 2022

2024-07-08

阅读 6 分钟

403

DPP能够对目标检测proposal进行非统一处理，根据proposal选择不同复杂度的算子，加速整体推理过程。从实验结果来看，效果非常不错来源：晓飞的算法工程笔记公众号

封面图

3

3