晓飞的算法工程笔记 - SegmentFault 思否

SINE：上下文示例驱动，打造真正的通用分割模型 | NeurIPS'24

1 月 2 日

阅读 5 分钟

612

来源：晓飞的算法工程笔记公众号，转载请注明出处论文: A Simple Image Segmentation Framework via In-Context Examples论文地址：[链接]论文代码：[链接]创新点探索了通用的分割模型，发现现有方法在上下文分割中面临任务模糊性的问题，因为并非所有的上下文示例都能准确传达任务信息。提出了一个利用上下文示例的简...

无需配对数据的对比学习图像到图像转换，助力跨域物体检测 | BMVC'24

VincentLee

2024-11-29

阅读 4 分钟

536

来源：晓飞的算法工程笔记公众号，转载请注明出处论文: Improving Object Detection via Local-global Contrastive Learning论文地址：[链接]论文代码：[链接]创新点提出了一种新颖的图像到图像转换方法，用于跨域物体检测。该方法为一个具有引导先验的对比学习框架，通过空间注意力掩码优化物体实例的外观，隐式地将场...

SSD：清华出品，可切换密集稀疏的大模型预训练加速方案 | ICML'24

VincentLee

2024-11-28

阅读 4 分钟

519

来源：晓飞的算法工程笔记公众号，转载请注明出处论文: Exploring the Benefit of Activation Sparsity in Pre-training论文地址：[链接]论文代码：[链接]创新点研究了激活属性在预训练过程中的变化，发现Transformer在大多数预训练过程中表现出稀疏激活，同时激活相关性随着训练的进行而不断演变。提出了可切换的稀疏-...

CritiCS：智能协作下的创意长篇故事生成框架 | EMNLP'24

VincentLee

2024-11-25

阅读 3 分钟

367

来源：晓飞的算法工程笔记公众号，转载请注明出处论文: Collective Critics for Creative Story Generation论文地址：[链接]创新点提出了 ${\tt CritiCS}$ 的框架，旨在通过基于创造力标准的集体评议，创造性地增强故事计划和文本表现力。通过实验表明， ${\tt CritiCS}$ 有效地创造了具有创造性和连贯性的故事，使用了...

Pcb-Merging：无需训练的多任务模型合并方案 | NeurIPS'24

VincentLee

2024-11-22

阅读 4 分钟

349

来源：晓飞的算法工程笔记公众号，转载请注明出处论文: Parameter Competition Balancing for Model Merging论文地址：[链接]论文代码：[链接]创新点重新审视了现有的模型合并方法，强调参数竞争意识的关键作用。提出了一种名为 ${\tt Pcb-Merging}$ 的新方法，通过平衡参数竞争有效地调整参数系数。提出的方法在各种应...

Open-RAG：将开源LLM模型集成为高效RAG模型 | ENMLP'24

VincentLee

2024-11-21

阅读 4 分钟

468

论文: Open-RAG: Enhanced Retrieval-Augmented Reasoning with Open-Source Large Language Models

MaskLLM：英伟达出品，用于大模型的可学习`N:M`稀疏化 | NeurIPS'24

VincentLee

2024-11-20

阅读 6 分钟

419

论文: MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models

VL4AD：让语义分割认识未知类别，无需额外数据和训练的OOD语义分割 | ECCV'24

VincentLee

2024-11-19

阅读 3 分钟

341

论文: VL4AD: Vision-Language Models Improve Pixel-wise Anomaly Detection

MoD：轻量化、高效、强大的新型卷积结构 | ACCV'24

VincentLee

2024-11-18

阅读 2 分钟

645

来源：晓飞的算法工程笔记公众号，转载请注明出处论文: CNN Mixture-of-Depths论文地址：[链接]创新点提出新的卷积轻量化结构MoD，在卷积块（Conv-Blocks）内通过动态选择特征图中的关键通道进行集中处理，提高效率。CNN MoD保留了静态计算图，这提高了训练和推理的时间效率，而且不需要定制的CUDA内核、额外的损失函数...

如何利用1%的数据优化特定领域LLM预训练？ | EMNLP'24

VincentLee

2024-11-15

阅读 3 分钟

322

来源：晓飞的算法工程笔记公众号，转载请注明出处论文: Target-Aware Language Modeling via Granular Data Sampling论文地址：[链接]创新点提出了一种将预先训练好的标记符与多粒度标记符合并的算法，生成高效的n-gram特征，而且与下游任务的性能有很高的相关性。利用上述研究成果，改进了基于重要性的数据采样技术，...

AlignSum：数据金字塔与层级微调，提升文本摘要模型性能 | EMNLP'24

VincentLee

2024-11-14

阅读 3 分钟

309

论文: AlignSum: Data Pyramid Hierarchical Fine-tuning for Aligning with Human Summarization Preference

SAM4MLLM：结合多模态大型语言模型和SAM实现高精度引用表达分割 | ECCV'24

VincentLee

2024-11-13

阅读 3 分钟

341

论文: SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation

模态内重叠优化，简单有效的CLIP微调方法 | BMVC'24 Oral

VincentLee

2024-11-12

阅读 2 分钟

317

来源：晓飞的算法工程笔记公众号，转载请注明出处论文: CLIP Adaptation by Intra-modal Overlap Reduction论文地址：[链接]创新点提出一种基于轻量级适配的新方法，直接在图像空间中减少CLIP中的模态内重叠（IMO）。新特征与任何利用缓存模型的无训练方法兼容，这些新特征提高了所有被检查的无训练方法的整体性能。表...

CLIPFit：不绕弯子，直接微调比提示微调和适配器微调更好 | EMNLP'24

VincentLee

2024-11-11

阅读 3 分钟

323

论文: Vision-Language Model Fine-Tuning via Simple Parameter-Efficient Modification

RAC：无训练持续扩展，基于检索的目标检测器 | ECCV'24

VincentLee

2024-11-08

阅读 3 分钟

368

论文: Online Learning via Memory: Retrieval-Augmented Detector Adaptation

AnytimeCL：难度加大，支持任意持续学习场景的新方案 | ECCV'24

VincentLee

2024-11-07

阅读 3 分钟

330

来源：晓飞的算法工程笔记公众号，转载请注明出处论文: Anytime Continual Learning for Open Vocabulary Classification论文地址：[链接]论文代码：[链接]创新点在线训练时，每个批次由新训练样本和类别平衡的存储样本组成。在线学习每个标签的准确性，以有效对原始模型和调整后模型的预测进行加权。损失修改以支持“以...

ATC：多快好省，无参数token reduction方法 | ECCV'24

VincentLee

2024-11-06

阅读 2 分钟

318

来源：晓飞的算法工程笔记公众号，转载请注明出处论文: Agglomerative Token Clustering论文地址：[链接]论文代码：[链接]创新点提出了层次token聚类（Agglomerative Token Clustering，ATC），这是一种新型的无参数层次合并的token减少方法。基于ATC，在图像分类、图像合成，以及目标检测和分割任务上实现了最先进的性...

SyncOOD：增加OOD目标检测鲁棒性，自动化数据助您一臂之力 | ECCV'24

VincentLee

2024-11-05

阅读 4 分钟

365

本文是对公开论文的核心提炼，而非直接翻译，旨在进行学术交流。如有任何侵权问题，请及时联系号主以便删除。来源：晓飞的算法工程笔记公众号，转载请注明出处

MMCA：多模态动态权重更新，视觉定位新SOTA | ACM MM'24 Oral

VincentLee

2024-11-04

阅读 4 分钟

来源：晓飞的算法工程笔记公众号，转载请注明出处论文: Visual Grounding with Multi-modal Conditional Adaptation论文地址：[链接]论文代码：[链接]创新点提出了多模态条件适应（MMCA）方法，该方法从一种新颖的权重更新视角改善了视觉引导模型中视觉编码器的特征提取过程。将提出的MMCA应用于主流的视觉引导框架，并...

DPaRL：耶鲁+AWS出品，开放世界持续学习场景的新解法 | ECCV'24

VincentLee

2024-11-01

阅读 4 分钟

496

论文: Open-World Dynamic Prompt and Continual Visual Representation Learning

SLS：整层剪掉！基于降维特征聚类的PETL模型剪枝新方法 | ECCV'24

VincentLee

2024-10-31

阅读 3 分钟

475

论文: Straightforward Layer-wise Pruning for More Efficient Visual Adaptation

Data-Free，多目标域适应合并方案，简单又有效 | ECCV'24

VincentLee

2024-10-30

阅读 3 分钟

467

来源：晓飞的算法工程笔记公众号，转载请注明出处论文: Training-Free Model Merging for Multi-target Domain Adaptation论文地址：[链接]论文代码：[链接]创新点对域适应的场景解析模型中的模式连通性进行了系统的探索，揭示了模型合并有效的潜在条件。引入了一种模型合并技术，包括参数合并和缓冲区合并，适用于多目...

ClearCLIP：倒反天罡，删除两个组件反而可以提升密集预测性能 | ECCV'24

VincentLee

2024-10-29

阅读 3 分钟

450

论文: ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference

CerberusDet：不同任务共享不同的部分，新多任务目标检测方案

VincentLee

2024-10-28

阅读 5 分钟

403

传统的目标检测模型通常受到其训练数据和定义的类别逻辑的限制。随着语言-视觉模型的近期兴起，出现了不受这些固定类别限制的新方法。尽管这些开放词汇检测模型具有灵活性，但与传统的固定类别模型相比，仍然在准确性上存在不足。同时，更加准确的数据特定模型在需要扩展类别或合并不同数据集进行训练时面临挑战。后者通...

LookupViT：类似SE的token压缩方案，加速还能丰富特征 | ECCV'24

VincentLee

2024-10-25

阅读 7 分钟

576

视觉变换器（ViT）已成为众多工业级视觉解决方案的事实标准选择。但由于每一层都计算自注意力，这导致其推理成本对许多场景而言是不可接受的，因为自注意力在标记数量上具有平方的计算复杂度。另一方面，图像中的空间信息和视频中的时空信息通常是稀疏和冗余的。LookupViT旨在利用这种信息稀疏性来降低ViT的推理成本，提...

新思路，基于Diffusion的初始化权重生成策略 | ECCV'24

VincentLee

2024-10-24

阅读 7 分钟

465

良好的权重初始化可以有效降低深度神经网络（DNN）模型的训练成本。如何初始化参数的选择是一个具有挑战性的任务，可能需要手动调整，这可能既耗时又容易出错。为了解决这些限制，论文迈出了建立权重生成器以合成神经网络初始化权重的创新一步。采用图像到图像的转换任务，使用生成对抗网络（GAN）作为示例，因为这方面...

OpenPSG：离AGI再进一步，首个开放环境关系预测框架 | ECCV'24

VincentLee

2024-10-23

阅读 8 分钟

412

全景场景图生成（PSG）的目标是对对象进行分割并识别它们之间的关系，从而实现对图像的结构化理解。以往的方法主要集中于预测预定义的对象和关系类别，因此限制了它们在开放世界场景中的应用。随着大型多模态模型（LMMs）的快速发展，开放集对象检测和分割已经取得了重大进展，但PSG中的开放集关系预测仍然未被探索。论...

LaMI-DETR：基于GPT丰富优化的开放词汇目标检测 | ECCV'24

VincentLee

2024-10-22

阅读 8 分钟

623

现有的方法通过利用视觉-语言模型（VLMs）（如CLIP）强大的开放词汇识别能力来增强开放词汇目标检测，然而出现了两个主要挑战：（1）概念表示不足，CLIP文本空间中的类别名称缺乏文本和视觉知识。（2）对基础类别的过拟合倾向，在从VLMs到检测器的转移过程中，开放词汇知识偏向于基础类别。为了解决这些挑战，论文提出了...

Plain-Det：同时支持多数据集训练的新目标检测 | ECCV'24

VincentLee

2024-10-21

阅读 8 分钟

463

近期在大规模基础模型上的进展引发了对训练高效大型视觉模型的广泛关注。一个普遍的共识是必须聚合大量高质量的带注释数据。然而，鉴于计算机视觉中密集任务（如目标检测和分割）标注的固有挑战，实际的策略是结合并利用所有可用的数据进行训练。论文提出了Plain-Det，提供了灵活性以适应新的数据集，具有跨多样数据集的...

DataDream：调一调更好，基于LoRA微调SD的训练集合成新方案 | ECCV'24

VincentLee

2024-10-18

阅读 7 分钟

426

尽管文本到图像的扩散模型已被证明在图像合成方面达到了最先进的结果，但它们尚未证明在下游应用中的有效性。先前的研究提出了在有限的真实数据访问下为图像分类器训练生成数据的方法。然而，这些方法在生成内部分布图像或描绘细粒度特征方面存在困难，从而阻碍了在合成数据集上训练的分类模型的泛化能力。论文提出了Dat...