Open-RAG:将开源LLM模型集成为高效RAG模型 | ENMLP'24

11 月 21 日
阅读 4 分钟
52
论文: Open-RAG: Enhanced Retrieval-Augmented Reasoning with Open-Source Large Language Models
封面图

MaskLLM:英伟达出品,用于大模型的可学习`N:M`稀疏化 | NeurIPS'24

11 月 20 日
阅读 6 分钟
19
论文: MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models
封面图

VL4AD:让语义分割认识未知类别,无需额外数据和训练的OOD语义分割 | ECCV'24

11 月 19 日
阅读 3 分钟
30
论文: VL4AD: Vision-Language Models Improve Pixel-wise Anomaly Detection
封面图

MoD:轻量化、高效、强大的新型卷积结构 | ACCV'24

11 月 18 日
阅读 2 分钟
42
来源:晓飞的算法工程笔记 公众号,转载请注明出处论文: CNN Mixture-of-Depths论文地址:[链接]创新点提出新的卷积轻量化结构MoD,在卷积块(Conv-Blocks)内通过动态选择特征图中的关键通道进行集中处理,提高效率。CNN MoD保留了静态计算图,这提高了训练和推理的时间效率,而且不需要定制的CUDA内核、额外的损失函数...
封面图

如何利用1%的数据优化特定领域LLM预训练? | EMNLP'24

11 月 15 日
阅读 3 分钟
34
来源:晓飞的算法工程笔记 公众号,转载请注明出处论文: Target-Aware Language Modeling via Granular Data Sampling论文地址:[链接]创新点提出了一种将预先训练好的标记符与多粒度标记符合并的算法,生成高效的n-gram特征,而且与下游任务的性能有很高的相关性。利用上述研究成果,改进了基于重要性的数据采样技术,...
封面图

AlignSum:数据金字塔与层级微调,提升文本摘要模型性能 | EMNLP'24

11 月 14 日
阅读 3 分钟
43
论文: AlignSum: Data Pyramid Hierarchical Fine-tuning for Aligning with Human Summarization Preference
封面图

SAM4MLLM:结合多模态大型语言模型和SAM实现高精度引用表达分割 | ECCV'24

11 月 13 日
阅读 3 分钟
42
论文: SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation
封面图

模态内重叠优化,简单有效的CLIP微调方法 | BMVC'24 Oral

11 月 12 日
阅读 2 分钟
5
来源:晓飞的算法工程笔记 公众号,转载请注明出处论文: CLIP Adaptation by Intra-modal Overlap Reduction论文地址:[链接]创新点提出一种基于轻量级适配的新方法,直接在图像空间中减少CLIP中的模态内重叠(IMO)。新特征与任何利用缓存模型的无训练方法兼容,这些新特征提高了所有被检查的无训练方法的整体性能。表...
封面图

CLIPFit:不绕弯子,直接微调比提示微调和适配器微调更好 | EMNLP'24

11 月 11 日
阅读 3 分钟
52
论文: Vision-Language Model Fine-Tuning via Simple Parameter-Efficient Modification
封面图

RAC:无训练持续扩展,基于检索的目标检测器 | ECCV'24

11 月 8 日
阅读 3 分钟
70
论文: Online Learning via Memory: Retrieval-Augmented Detector Adaptation
封面图

AnytimeCL:难度加大,支持任意持续学习场景的新方案 | ECCV'24

11 月 7 日
阅读 3 分钟
59
来源:晓飞的算法工程笔记 公众号,转载请注明出处论文: Anytime Continual Learning for Open Vocabulary Classification论文地址:[链接]论文代码:[链接]创新点在线训练时,每个批次由新训练样本和类别平衡的存储样本组成。在线学习每个标签的准确性,以有效对原始模型和调整后模型的预测进行加权。损失修改以支持“以...
封面图

ATC:多快好省,无参数token reduction方法 | ECCV'24

11 月 6 日
阅读 2 分钟
50
来源:晓飞的算法工程笔记 公众号,转载请注明出处论文: Agglomerative Token Clustering论文地址:[链接]论文代码:[链接]创新点提出了层次token聚类(Agglomerative Token Clustering,ATC),这是一种新型的无参数层次合并的token减少方法。基于ATC,在图像分类、图像合成,以及目标检测和分割任务上实现了最先进的性...
封面图

SyncOOD:增加OOD目标检测鲁棒性,自动化数据助您一臂之力 | ECCV'24

11 月 5 日
阅读 4 分钟
67
本文是对公开论文的核心提炼,而非直接翻译,旨在进行学术交流。如有任何侵权问题,请及时联系号主以便删除。来源:晓飞的算法工程笔记 公众号,转载请注明出处
封面图

MMCA:多模态动态权重更新,视觉定位新SOTA | ACM MM'24 Oral

11 月 4 日
阅读 4 分钟
176
来源:晓飞的算法工程笔记 公众号,转载请注明出处论文: Visual Grounding with Multi-modal Conditional Adaptation论文地址:[链接]论文代码:[链接]创新点提出了多模态条件适应(MMCA)方法,该方法从一种新颖的权重更新视角改善了视觉引导模型中视觉编码器的特征提取过程。将提出的MMCA应用于主流的视觉引导框架,并...
封面图

DPaRL:耶鲁+AWS出品,开放世界持续学习场景的新解法 | ECCV'24

11 月 1 日
阅读 4 分钟
153
论文: Open-World Dynamic Prompt and Continual Visual Representation Learning
封面图

SLS:整层剪掉!基于降维特征聚类的PETL模型剪枝新方法 | ECCV'24

10 月 31 日
阅读 3 分钟
146
论文: Straightforward Layer-wise Pruning for More Efficient Visual Adaptation
封面图

Data-Free,多目标域适应合并方案,简单又有效 | ECCV'24

10 月 30 日
阅读 3 分钟
133
来源:晓飞的算法工程笔记 公众号,转载请注明出处论文: Training-Free Model Merging for Multi-target Domain Adaptation论文地址:[链接]论文代码:[链接]创新点对域适应的场景解析模型中的模式连通性进行了系统的探索,揭示了模型合并有效的潜在条件。引入了一种模型合并技术,包括参数合并和缓冲区合并,适用于多目...
封面图

ClearCLIP:倒反天罡,删除两个组件反而可以提升密集预测性能 | ECCV'24

10 月 29 日
阅读 3 分钟
97
论文: ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference
封面图

CerberusDet:不同任务共享不同的部分,新多任务目标检测方案

10 月 28 日
阅读 5 分钟
122
传统的目标检测模型通常受到其训练数据和定义的类别逻辑的限制。随着语言-视觉模型的近期兴起,出现了不受这些固定类别限制的新方法。尽管这些开放词汇检测模型具有灵活性,但与传统的固定类别模型相比,仍然在准确性上存在不足。同时,更加准确的数据特定模型在需要扩展类别或合并不同数据集进行训练时面临挑战。后者通...
封面图

LookupViT:类似SE的token压缩方案,加速还能丰富特征 | ECCV'24

10 月 25 日
阅读 7 分钟
185
视觉变换器(ViT)已成为众多工业级视觉解决方案的事实标准选择。但由于每一层都计算自注意力,这导致其推理成本对许多场景而言是不可接受的,因为自注意力在标记数量上具有平方的计算复杂度。另一方面,图像中的空间信息和视频中的时空信息通常是稀疏和冗余的。LookupViT旨在利用这种信息稀疏性来降低ViT的推理成本,提...
封面图

新思路,基于Diffusion的初始化权重生成策略 | ECCV'24

10 月 24 日
阅读 7 分钟
114
良好的权重初始化可以有效降低深度神经网络(DNN)模型的训练成本。如何初始化参数的选择是一个具有挑战性的任务,可能需要手动调整,这可能既耗时又容易出错。为了解决这些限制,论文迈出了建立权重生成器以合成神经网络初始化权重的创新一步。采用图像到图像的转换任务,使用生成对抗网络(GAN)作为示例,因为这方面...
封面图

OpenPSG:离AGI再进一步,首个开放环境关系预测框架 | ECCV'24

10 月 23 日
阅读 8 分钟
102
全景场景图生成(PSG)的目标是对对象进行分割并识别它们之间的关系,从而实现对图像的结构化理解。以往的方法主要集中于预测预定义的对象和关系类别,因此限制了它们在开放世界场景中的应用。随着大型多模态模型(LMMs)的快速发展,开放集对象检测和分割已经取得了重大进展,但PSG中的开放集关系预测仍然未被探索。论...
封面图

LaMI-DETR:基于GPT丰富优化的开放词汇目标检测 | ECCV'24

10 月 22 日
阅读 8 分钟
209
现有的方法通过利用视觉-语言模型(VLMs)(如CLIP)强大的开放词汇识别能力来增强开放词汇目标检测,然而出现了两个主要挑战:(1)概念表示不足,CLIP文本空间中的类别名称缺乏文本和视觉知识。(2)对基础类别的过拟合倾向,在从VLMs到检测器的转移过程中,开放词汇知识偏向于基础类别。为了解决这些挑战,论文提出了...
封面图

Plain-Det:同时支持多数据集训练的新目标检测 | ECCV'24

10 月 21 日
阅读 8 分钟
161
近期在大规模基础模型上的进展引发了对训练高效大型视觉模型的广泛关注。一个普遍的共识是必须聚合大量高质量的带注释数据。然而,鉴于计算机视觉中密集任务(如目标检测和分割)标注的固有挑战,实际的策略是结合并利用所有可用的数据进行训练。论文提出了Plain-Det,提供了灵活性以适应新的数据集,具有跨多样数据集的...
封面图

DataDream:调一调更好,基于LoRA微调SD的训练集合成新方案 | ECCV'24

10 月 18 日
阅读 7 分钟
120
尽管文本到图像的扩散模型已被证明在图像合成方面达到了最先进的结果,但它们尚未证明在下游应用中的有效性。先前的研究提出了在有限的真实数据访问下为图像分类器训练生成数据的方法。然而,这些方法在生成内部分布图像或描绘细粒度特征方面存在困难,从而阻碍了在合成数据集上训练的分类模型的泛化能力。论文提出了Dat...
封面图

DiTAC:不知如何提升性能?试试这款基于微分同胚变换的激活函数 | ECCV'24

10 月 17 日
阅读 9 分钟
118
非线性激活函数对深度神经网络的成功至关重要,选择合适的激活函数可以显著影响其性能。大多数网络使用固定的激活函数(例如,ReLU、GELU等),这种选择可能限制了它们的表达能力。此外,不同的层可能从不同的激活函数中受益。因此,基于可训练激活函数的兴趣日益增加。论文提出了一种基于有效微分同胚变换(称为CPAB)...
封面图

ERQ:32位转5位仅掉些许精度,来看看两段式后训练量化 | ICML 2024

10 月 16 日
阅读 13 分钟
118
后训练量化(PTQ)在视觉Transformer(ViTs)领域引起了广泛关注,因为它在模型压缩方面表现出了高效率。然而,现有的方法通常忽视了量化权重和激活之间复杂的相互依赖关系,导致了相当大的量化误差。论文提出了一种名为ERQ的两步PTQ方法,精心设计用于顺序降低激活和权重量化带来的量化误差。ERQ首先引入了激活量化误差...
封面图

HiT-SR:基于层级Transformer的超分辨率,计算高效且能提取长距离关系 | ECCV'24

10 月 15 日
阅读 7 分钟
158
Transformer在计算机视觉任务中表现出了令人鼓舞的性能,包括图像超分辨率(SR)。然而,流行的基于Transformer的SR方法通常采用具有二次计算复杂度的窗口自注意力机制,导致固定的小窗口,限制了感受野的范围。论文提出了一种将基于Transformer的SR网络转换为分层Transformer(HiT-SR)的通用策略,利用多尺度特征提升S...
封面图

WTConv:小参数大感受野,基于小波变换的新型卷积 | ECCV'24

10 月 14 日
阅读 6 分钟
443
近年来,人们尝试增加卷积神经网络(CNN)的卷积核大小,以模拟视觉Transformer(ViTs)自注意力模块的全局感受野。然而,这种方法很快就遇到了上限,并在实现全局感受野之前就达到了饱和。论文证明通过利用小波变换(WT),实际上可以获得非常大的感受野,而不会出现过参数化的情况。例如,对于一个 $k \times k$ 的感...
封面图

DIKI:清华提出基于残差的可控持续学习方案,完美保持预训练知识 | ECCV'24

10 月 12 日
阅读 8 分钟
168
本研究解决了领域-类别增量学习问题,这是一个现实但富有挑战性的持续学习场景,其中领域分布和目标类别在不同任务中变化。为应对这些多样化的任务,引入了预训练的视觉-语言模型(VLMs),因为它们具有很强的泛化能力。然而,这也引发了一个新问题:在适应新任务时,预训练VLMs中编码的知识可能会受到干扰,从而损害它...
封面图