无需配对数据的对比学习图像到图像转换,助力跨域物体检测 | BMVC'24

11 月 29 日
阅读 4 分钟
104
来源:晓飞的算法工程笔记 公众号,转载请注明出处论文: Improving Object Detection via Local-global Contrastive Learning论文地址:[链接]论文代码:[链接]创新点提出了一种新颖的图像到图像转换方法,用于跨域物体检测。该方法为一个具有引导先验的对比学习框架,通过空间注意力掩码优化物体实例的外观,隐式地将场...
封面图

SSD:清华出品,可切换密集稀疏的大模型预训练加速方案 | ICML'24

11 月 28 日
阅读 4 分钟
86
来源:晓飞的算法工程笔记 公众号,转载请注明出处论文: Exploring the Benefit of Activation Sparsity in Pre-training论文地址:[链接]论文代码:[链接]创新点研究了激活属性在预训练过程中的变化,发现Transformer在大多数预训练过程中表现出稀疏激活,同时激活相关性随着训练的进行而不断演变。提出了可切换的稀疏-...
封面图

CritiCS:智能协作下的创意长篇故事生成框架 | EMNLP'24

11 月 25 日
阅读 3 分钟
89
来源:晓飞的算法工程笔记 公众号,转载请注明出处论文: Collective Critics for Creative Story Generation论文地址:[链接]创新点提出了 ${\tt CritiCS}$ 的框架,旨在通过基于创造力标准的集体评议,创造性地增强故事计划和文本表现力。通过实验表明, ${\tt CritiCS}$ 有效地创造了具有创造性和连贯性的故事,使用了...
封面图

Pcb-Merging:无需训练的多任务模型合并方案 | NeurIPS'24

11 月 22 日
阅读 4 分钟
102
来源:晓飞的算法工程笔记 公众号,转载请注明出处论文: Parameter Competition Balancing for Model Merging论文地址:[链接]论文代码:[链接]创新点重新审视了现有的模型合并方法,强调参数竞争意识的关键作用。提出了一种名为 ${\tt Pcb-Merging}$ 的新方法,通过平衡参数竞争有效地调整参数系数。提出的方法在各种应...
封面图

Open-RAG:将开源LLM模型集成为高效RAG模型 | ENMLP'24

11 月 21 日
阅读 4 分钟
209
论文: Open-RAG: Enhanced Retrieval-Augmented Reasoning with Open-Source Large Language Models
封面图

MaskLLM:英伟达出品,用于大模型的可学习`N:M`稀疏化 | NeurIPS'24

11 月 20 日
阅读 6 分钟
119
论文: MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models
封面图

VL4AD:让语义分割认识未知类别,无需额外数据和训练的OOD语义分割 | ECCV'24

11 月 19 日
阅读 3 分钟
118
论文: VL4AD: Vision-Language Models Improve Pixel-wise Anomaly Detection
封面图

MoD:轻量化、高效、强大的新型卷积结构 | ACCV'24

11 月 18 日
阅读 2 分钟
156
来源:晓飞的算法工程笔记 公众号,转载请注明出处论文: CNN Mixture-of-Depths论文地址:[链接]创新点提出新的卷积轻量化结构MoD,在卷积块(Conv-Blocks)内通过动态选择特征图中的关键通道进行集中处理,提高效率。CNN MoD保留了静态计算图,这提高了训练和推理的时间效率,而且不需要定制的CUDA内核、额外的损失函数...
封面图

如何利用1%的数据优化特定领域LLM预训练? | EMNLP'24

11 月 15 日
阅读 3 分钟
83
来源:晓飞的算法工程笔记 公众号,转载请注明出处论文: Target-Aware Language Modeling via Granular Data Sampling论文地址:[链接]创新点提出了一种将预先训练好的标记符与多粒度标记符合并的算法,生成高效的n-gram特征,而且与下游任务的性能有很高的相关性。利用上述研究成果,改进了基于重要性的数据采样技术,...
封面图

AlignSum:数据金字塔与层级微调,提升文本摘要模型性能 | EMNLP'24

11 月 14 日
阅读 3 分钟
102
论文: AlignSum: Data Pyramid Hierarchical Fine-tuning for Aligning with Human Summarization Preference
封面图

SAM4MLLM:结合多模态大型语言模型和SAM实现高精度引用表达分割 | ECCV'24

11 月 13 日
阅读 3 分钟
115
论文: SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation
封面图

模态内重叠优化,简单有效的CLIP微调方法 | BMVC'24 Oral

11 月 12 日
阅读 2 分钟
64
来源:晓飞的算法工程笔记 公众号,转载请注明出处论文: CLIP Adaptation by Intra-modal Overlap Reduction论文地址:[链接]创新点提出一种基于轻量级适配的新方法,直接在图像空间中减少CLIP中的模态内重叠(IMO)。新特征与任何利用缓存模型的无训练方法兼容,这些新特征提高了所有被检查的无训练方法的整体性能。表...
封面图

CLIPFit:不绕弯子,直接微调比提示微调和适配器微调更好 | EMNLP'24

11 月 11 日
阅读 3 分钟
114
论文: Vision-Language Model Fine-Tuning via Simple Parameter-Efficient Modification
封面图

RAC:无训练持续扩展,基于检索的目标检测器 | ECCV'24

11 月 8 日
阅读 3 分钟
121
论文: Online Learning via Memory: Retrieval-Augmented Detector Adaptation
封面图

AnytimeCL:难度加大,支持任意持续学习场景的新方案 | ECCV'24

11 月 7 日
阅读 3 分钟
120
来源:晓飞的算法工程笔记 公众号,转载请注明出处论文: Anytime Continual Learning for Open Vocabulary Classification论文地址:[链接]论文代码:[链接]创新点在线训练时,每个批次由新训练样本和类别平衡的存储样本组成。在线学习每个标签的准确性,以有效对原始模型和调整后模型的预测进行加权。损失修改以支持“以...
封面图

ATC:多快好省,无参数token reduction方法 | ECCV'24

11 月 6 日
阅读 2 分钟
98
来源:晓飞的算法工程笔记 公众号,转载请注明出处论文: Agglomerative Token Clustering论文地址:[链接]论文代码:[链接]创新点提出了层次token聚类(Agglomerative Token Clustering,ATC),这是一种新型的无参数层次合并的token减少方法。基于ATC,在图像分类、图像合成,以及目标检测和分割任务上实现了最先进的性...
封面图

SyncOOD:增加OOD目标检测鲁棒性,自动化数据助您一臂之力 | ECCV'24

11 月 5 日
阅读 4 分钟
125
本文是对公开论文的核心提炼,而非直接翻译,旨在进行学术交流。如有任何侵权问题,请及时联系号主以便删除。来源:晓飞的算法工程笔记 公众号,转载请注明出处
封面图

MMCA:多模态动态权重更新,视觉定位新SOTA | ACM MM'24 Oral

11 月 4 日
阅读 4 分钟
350
来源:晓飞的算法工程笔记 公众号,转载请注明出处论文: Visual Grounding with Multi-modal Conditional Adaptation论文地址:[链接]论文代码:[链接]创新点提出了多模态条件适应(MMCA)方法,该方法从一种新颖的权重更新视角改善了视觉引导模型中视觉编码器的特征提取过程。将提出的MMCA应用于主流的视觉引导框架,并...
封面图

DPaRL:耶鲁+AWS出品,开放世界持续学习场景的新解法 | ECCV'24

11 月 1 日
阅读 4 分钟
222
论文: Open-World Dynamic Prompt and Continual Visual Representation Learning
封面图

SLS:整层剪掉!基于降维特征聚类的PETL模型剪枝新方法 | ECCV'24

10 月 31 日
阅读 3 分钟
218
论文: Straightforward Layer-wise Pruning for More Efficient Visual Adaptation
封面图

Data-Free,多目标域适应合并方案,简单又有效 | ECCV'24

10 月 30 日
阅读 3 分钟
204
来源:晓飞的算法工程笔记 公众号,转载请注明出处论文: Training-Free Model Merging for Multi-target Domain Adaptation论文地址:[链接]论文代码:[链接]创新点对域适应的场景解析模型中的模式连通性进行了系统的探索,揭示了模型合并有效的潜在条件。引入了一种模型合并技术,包括参数合并和缓冲区合并,适用于多目...
封面图

ClearCLIP:倒反天罡,删除两个组件反而可以提升密集预测性能 | ECCV'24

10 月 29 日
阅读 3 分钟
166
论文: ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference
封面图

CerberusDet:不同任务共享不同的部分,新多任务目标检测方案

10 月 28 日
阅读 5 分钟
166
传统的目标检测模型通常受到其训练数据和定义的类别逻辑的限制。随着语言-视觉模型的近期兴起,出现了不受这些固定类别限制的新方法。尽管这些开放词汇检测模型具有灵活性,但与传统的固定类别模型相比,仍然在准确性上存在不足。同时,更加准确的数据特定模型在需要扩展类别或合并不同数据集进行训练时面临挑战。后者通...
封面图

LookupViT:类似SE的token压缩方案,加速还能丰富特征 | ECCV'24

10 月 25 日
阅读 7 分钟
272
视觉变换器(ViT)已成为众多工业级视觉解决方案的事实标准选择。但由于每一层都计算自注意力,这导致其推理成本对许多场景而言是不可接受的,因为自注意力在标记数量上具有平方的计算复杂度。另一方面,图像中的空间信息和视频中的时空信息通常是稀疏和冗余的。LookupViT旨在利用这种信息稀疏性来降低ViT的推理成本,提...
封面图

新思路,基于Diffusion的初始化权重生成策略 | ECCV'24

10 月 24 日
阅读 7 分钟
164
良好的权重初始化可以有效降低深度神经网络(DNN)模型的训练成本。如何初始化参数的选择是一个具有挑战性的任务,可能需要手动调整,这可能既耗时又容易出错。为了解决这些限制,论文迈出了建立权重生成器以合成神经网络初始化权重的创新一步。采用图像到图像的转换任务,使用生成对抗网络(GAN)作为示例,因为这方面...
封面图

OpenPSG:离AGI再进一步,首个开放环境关系预测框架 | ECCV'24

10 月 23 日
阅读 8 分钟
148
全景场景图生成(PSG)的目标是对对象进行分割并识别它们之间的关系,从而实现对图像的结构化理解。以往的方法主要集中于预测预定义的对象和关系类别,因此限制了它们在开放世界场景中的应用。随着大型多模态模型(LMMs)的快速发展,开放集对象检测和分割已经取得了重大进展,但PSG中的开放集关系预测仍然未被探索。论...
封面图

LaMI-DETR:基于GPT丰富优化的开放词汇目标检测 | ECCV'24

10 月 22 日
阅读 8 分钟
294
现有的方法通过利用视觉-语言模型(VLMs)(如CLIP)强大的开放词汇识别能力来增强开放词汇目标检测,然而出现了两个主要挑战:(1)概念表示不足,CLIP文本空间中的类别名称缺乏文本和视觉知识。(2)对基础类别的过拟合倾向,在从VLMs到检测器的转移过程中,开放词汇知识偏向于基础类别。为了解决这些挑战,论文提出了...
封面图

Plain-Det:同时支持多数据集训练的新目标检测 | ECCV'24

10 月 21 日
阅读 8 分钟
232
近期在大规模基础模型上的进展引发了对训练高效大型视觉模型的广泛关注。一个普遍的共识是必须聚合大量高质量的带注释数据。然而,鉴于计算机视觉中密集任务(如目标检测和分割)标注的固有挑战,实际的策略是结合并利用所有可用的数据进行训练。论文提出了Plain-Det,提供了灵活性以适应新的数据集,具有跨多样数据集的...
封面图

DataDream:调一调更好,基于LoRA微调SD的训练集合成新方案 | ECCV'24

10 月 18 日
阅读 7 分钟
150
尽管文本到图像的扩散模型已被证明在图像合成方面达到了最先进的结果,但它们尚未证明在下游应用中的有效性。先前的研究提出了在有限的真实数据访问下为图像分类器训练生成数据的方法。然而,这些方法在生成内部分布图像或描绘细粒度特征方面存在困难,从而阻碍了在合成数据集上训练的分类模型的泛化能力。论文提出了Dat...
封面图

DiTAC:不知如何提升性能?试试这款基于微分同胚变换的激活函数 | ECCV'24

10 月 17 日
阅读 9 分钟
166
非线性激活函数对深度神经网络的成功至关重要,选择合适的激活函数可以显著影响其性能。大多数网络使用固定的激活函数(例如,ReLU、GELU等),这种选择可能限制了它们的表达能力。此外,不同的层可能从不同的激活函数中受益。因此,基于可训练激活函数的兴趣日益增加。论文提出了一种基于有效微分同胚变换(称为CPAB)...
封面图