头图

2025-04-23 , 由 NVIDIA、UC Berkeley 和 UCSF 等机构的研究人员创建了 Describe Anything Model(DAM)以及相关数据集和基准测试。DAM 通过关键创新(如焦点提示和局部视觉主干)解决了详细局部描述(DLC)中区域细节丢失、高质量数据稀缺和基准测试限制等挑战,为图像和视频的细粒度描述开辟了新道路。

一、研究背景

图像和视频描述是计算机视觉和自然语言处理中的重要任务,它涉及理解视觉内容并用自然语言进行描述。近年来,虽然视觉语言模型在图像级描述方面取得了显著成果,但在生成特定区域的详细准确描述方面仍面临挑战。此外,视频描述还需捕捉动态视觉内容,如人类动作、物体运动和人 - 物交互等,这进一步增加了难度。如果能解决这一问题,将为图像 / 视频的细粒度理解和生成打开新的大门。

目前遇到困难和挑战:

1、区域细节丢失:以往方法从全局图像表示中提取局部特征,导致细粒度细节丢失,尤其是复杂场景中的小物体,关键细节在传递给语言模型之前就已丢失。虽然裁剪感兴趣区域可增强细节,但会丢失上下文线索。

2、高质量数据稀缺:现有数据集如 RefCOCOs 和 Visual Genome 提供的通常是短语,不足以训练生成丰富详细描述的模型。基于边界框的合成数据方法无法精确传达感兴趣区域,依赖全局描述的方法可能难以捕捉非显著区域。

3、基准测试限制:以往的局部描述基准测试通过比较生成描述与参考描述的语言相似度或使用基于语言模型的评分,但这种方法不适用于详细局部描述(DLC)。因为参考描述通常缺乏区域的全面细节,导致模型因正确但未在参考中明确提及的细节被误判为幻觉。

数据集地址:DLC-Bench|图像识别数据集|自然语言处理数据集

二、让我们一起看一下DLC-Bench

DLC-Bench 是一个用于评估详细局部描述(DLC)的基准测试数据集,它不依赖于参考描述,而是通过预定义的正负属性集合来评估模型生成的描述。

DLC-Bench 包含 892 个手动验证的问题,覆盖了广泛的属性和可能出现的幻觉情况。

这些问题分为正向问题和负向问题。

1、正向问题关注对象部分的特定属性,这些属性应该出现在描述中;

2、负向问题则关注不应该出现的细节,例如类似对象中常见的但目标实例中缺失的属性,或者与指定区域无关的描述。

DLC-Bench 的设计使得模型在生成描述时,不仅要包含正确的细节,还要避免生成错误或无关的信息。

数据集构建:

DLC-Bench 的构建基于 Objects365 v2 验证集的一个子集,这些图像被手动标注了分割掩码。

研究人员从这个子集中收集了包含感兴趣对象的图像和实例,然后生成了一系列关于这些对象的问题。为了确保数据质量,所有问题都经过手动检查,以去除答案模糊或不明确的问题。此外,为了保证基准测试的公正性,研究人员还进行了去重处理,确保训练数据中不包含用于基准测试的图像。

数据集特点:

1、属性覆盖广泛:DLC-Bench 包含了丰富的正负属性问题,能够全面评估模型对目标区域的理解和描述能力。

2、不依赖参考描述:与传统的基于参考描述的评估方法不同,DLC-Bench 通过预定义的属性集合来评估模型的输出,避免了因参考描述不完整而导致的误判。

3、手动验证和去重:所有问题都经过手动验证,确保了数据的准确性和可靠性。同时,通过去重处理,保证了训练数据和测试数据的独立性。

数据集使用方法:

DLC-Bench 的使用方法是,首先让模型生成对指定区域的描述,然后将生成的描述提交给一个文本生成模型(如 Llama 3.1 8B)作为“法官”,由“法官”根据预定义的正负问题对描述进行评分。模型根据其生成描述的准确性和避免幻觉的能力获得相应的分数。

基准测试:

在 DLC-Bench 的基准测试中,DAM 模型在正向问题上达到了 52.3% 的准确率,在负向问题上达到了 82.2% 的准确率,整体平均准确率为 67.3%,显著优于现有的通用和区域特定的视觉语言模型。

描述性任意模型(Describe Anything Model,简称DAM)能够为图像(上图)和视频(下图)中用户指定的区域生成详细的本地化描述。DAM接受多种区域指定方式,包括点击、涂鸦、框选和掩膜。对于视频而言,只要在任意一帧中指定区域即可。

上图:以往的区域描述生成器从全局图像表示中提取区域特征,导致描述不够具体。下图:放大(裁剪图像区域)可以增强细节,但会丢失上下文线索,从而降低识别效果。这突显了需要一种设计,既能编码细节丰富的区域特征,又能保留上下文,以提升详细局部描述(DLC)的性能。

我们的提议模型DAM、自监督学习(SSL)数据管道DLC-SDP以及基准测试

描述性任意模型(Describe Anything Model,简称DAM)的架构。DAM通过结合局部视觉骨干网络、自注意力机制、门控交叉注意力机制和大型语言模型,实现了对图像和视频中指定区域的详细、上下文感知的描述生成。这种架构不仅能够捕捉到局部细节,还能利用全局上下文信息,从而生成更加准确和丰富的描述。

我们提出了DLC-Bench,这是一个为详细局部描述量身定制的基准测试。

在DLC-Bench中:

一个描述模型被提示去描述指定的图像区域(a)。

然后,生成的描述(b)通过查询一个大型语言模型(LLM)裁判(c)进行评估。

根据LLM的响应(d)来加分或扣分。

我们在(c)中展示的问题是一个正面问题的例子。

三、展望DLC-Bench应用

案例:智能零售场景中的DLC-Bench应用

场景背景

某大型连锁超市“优鲜超市”引入了先进的智能零售系统,旨在通过摄像头捕捉顾客的行为和商品的摆放情况,以优化顾客体验和提升运营效率。该超市安装了多个高分辨率摄像头,覆盖了各个关键区域,如入口、货架区、收银台等。

摄像头捕捉

在超市的货架区,摄像头实时捕捉顾客的行为和商品的摆放情况。例如,摄像头捕捉到一位顾客(我们称其为顾客A)在零食货架前停留了约30秒。顾客A拿起了一包薯片,看了几眼后又放回了货架上,接着又拿起了一包巧克力,仔细查看后放入购物车。

一、DLC-Bench模型分析

DLC-Bench训练的模型对摄像头捕捉到的画面进行分析。模型首先识别出顾客A和货架上的商品,然后详细描述出顾客与商品之间的互动。模型生成的描述如下:

1、顾客行为

顾客A在零食货架前停留了30秒。

顾客A拿起了一包薯片,查看了约5秒后又放回货架。

顾客A接着拿起了一包巧克力,查看了约7秒后放入购物车。

2、商品状态

薯片包装完好,位于货架的中间位置。

巧克力包装完好,位于货架的右侧。

货架上的其他商品摆放整齐,没有明显的缺货或乱放的情况。

二、商家决策

超市的运营团队通过分析DLC-Bench模型生成的描述,获得了以下洞察:

1、顾客兴趣点

顾客A对薯片和巧克力表现出了一定的兴趣,但最终只购买了巧克力。这可能表明巧克力的吸引力更高,或者薯片的价格、包装等因素影响了顾客的购买决策。

2、商品摆放优化

虽然货架上的商品摆放整齐,但模型的描述中提到了顾客A在挑选商品时的行为细节,这提示运营团队可以进一步优化商品的陈列方式,比如将巧克力放在更显眼的位置,或者增加薯片的促销信息。

3、库存管理

通过持续监测货架上的商品状态,运营团队可以及时发现缺货情况,并及时补货,确保货架上的商品始终充足。

三、优化措施

基于DLC-Bench模型的分析结果,超市运营团队采取了以下措施:

1、调整商品陈列

将巧克力的陈列位置调整到货架的显眼位置,并增加促销标签。

对薯片进行重新陈列,增加促销信息,吸引更多顾客购买。

2、优化库存管理

增加了巧克力的库存,确保货架上始终有足够的商品供顾客选择。

定期检查薯片的库存,根据销售数据调整补货频率。

3、顾客体验提升

在货架上增加互动屏幕,提供商品的详细信息和顾客评价,帮助顾客做出更明智的购买决策。

增加员工在货架区的巡视,及时帮助顾客解决问题。

结果

通过DLC-Bench模型的分析和运营团队的优化措施,超市的销售额在接下来的一个月内增长了15%。顾客满意度也显著提高,顾客停留时间增加了20%。超市的库存管理更加高效,缺货率降低了30%。

更多开源的数据集,请打开:遇见数据集

https://www.selectdataset.com/


数据猎手小k
1 声望0 粉丝

为你解读每一个数据集背后的故事。