2025-01-15,由北航大学、合肥工业大学、中科院信息工程研究所和美团等机构联合创建介绍了一种名为LLaVA-ST的多模态大型语言模型。该模型配备了一个名为ST-Align的数据集,专为细粒度时空多模态理解设计。
一、研究背景
近年来,多模态大型语言模型(MLLMs)在多模态理解方面取得了显著进展,能够基于图像或视频生成对话或描述。然而,对于需要基于语言输入处理视觉坐标的细粒度多模态理解任务,现有模型表现欠佳,无法同时实现空间、时间和时空交错的细粒度多模态理解。
目前遇到困难和挑战:
1、多模态坐标对齐困难:当MLLMs执行联合时空细粒度理解时,坐标空间大幅扩展,导致跨模态坐标对齐复杂度增加。缺乏提供时空管与对应语言描述的数据集,大多数现有数据集仅提供边界框或时间持续信息,使得在时空坐标中有效定位对象变得困难。
2、保持视觉细节的挑战:为减轻计算负担,MLLMs需压缩从视频输入中提取的大量特征。但这种压缩不仅要保留空间和时间关系,还要在有限的token预算内保持细粒度上下文信息。简单的压缩方法,如Q-Former或池化,会导致空间关系和细粒度细节的不可避免的丢失,阻碍了从空间和时间两个方面的同步理解。
3、模型架构与训练策略的局限:现有模型在处理时空交错任务时,难以实现端到端的处理,且缺乏有效的训练策略来逐步提升模型在内容对齐、坐标对齐和多任务能力方面的表现。
数据集地址:ST-Align|时空理解数据集|多模态数据处理数据集
二、让我们一起来看一下ST-Align 数据集
ST-Align数据集通过GPT-4-turbo对VidSTG的数据进行修订和增强,通过引入特殊坐标标记,并将其嵌入到语言模型的输入文本嵌入和输出层中,构建了视觉位置嵌入。同时,采用了区域到点的注意力机制来压缩视觉特征,保留更多细粒度信息。以适应三种任务:
1、时空视频定位(STVG)、
2、事件定位与描述(ELC)
3、空间视频定位(SVG)。
数据集特点:
1、大规模样本量:为模型提供了丰富的学习素材。
2、多任务覆盖:涵盖了十五种不同类型的细粒度多模态理解任务,包括时空视频定位、事件定位与描述、空间视频定位等。
3、细粒度理解:专注于细粒度的时空理解,能够帮助模型更好地理解和定位视频中的具体事件和对象。
4、验证样本丰富:为每种任务提供了两千个验证样本,便于评估模型的性能和理解能力。
(左)LLaVA-ST 在各种细粒度多模态理解任务中表现出高性能,是第一个能够同时处理时空细粒度理解任务的 MLLM。(右)拟议的 ST-Align 中的时空交错细粒度理解任务示例,包括时空视频接地 (STVG)、事件定位和字幕 (ELC) 以及空间视频接地 (SVG)。
LLaVA-ST 的整体架构。在 LLaVA-ST 中,我们引入了离散的特殊标记来表示语言模态中的时空坐标。LAPE 将这些坐标表示嵌入到视觉特征空间中。此外,STP 模块利用双流打包机制来有效地压缩特征。
ST-Align 数据集概述。以橙色突出显示的任务涉及时间细粒度理解的数据集;蓝色的元素与空间细粒度理解有关;粉红色的对应于时空交错的细粒度理解。
三、让我们一起展望ST-Align 数据集应用场景
以前的自动驾驶汽车,就像是个刚学开车的新手。它靠眼睛(摄像头)和感觉(传感器)来“看”路,然后按照一些死板的规则来开车。比如,它看到前面有东西挡着,就赶紧刹车,然后大喊“危险”,让司机赶紧接管。这种情况下,司机得自己想办法怎么绕过去,自动驾驶系统帮不上忙。
现在,有了LLaVA-ST这个厉害的数据集和模型,自动驾驶汽车就像变成了一个经验丰富的老司机。
比如早上,咱坐在自动驾驶车里,在城市里溜达,前面突然出现了一个修路的区域,围挡把路挡了一部分,施工时间是从早上8点到下午5点。
现在的处理方式
1、“看”路:
摄像头:车上的摄像头就像老司机的眼睛,把前面的路看得清清楚楚,包括那些围挡、施工标志和车道线。
时间信息:车上的时钟告诉系统现在是上午10点。
2、“想”路:
特征提取:系统就像老司机的大脑,把看到的图像信息转换成有用的数据。
坐标嵌入:就像老司机在脑子里把看到的路和时间信息结合起来,系统用LAPE这个技术把文本坐标嵌入到视觉特征中,让信息更准确。
特征压缩:STP模块就像老司机在脑子里快速整理信息,把重要的细节都保留下来。
3、“开”车:
定位与理解:系统不仅能准确找到施工区域的位置,还能知道施工的时间,就像老司机知道前面的路什么时候能走,什么时候不能走。
决策:系统根据这些信息,自动规划出一条绕行的路线,不用紧急刹车,也不用大喊大叫,就像老司机一样淡定。
执行:车就自动调整路线,平稳地绕过施工区域,继续往前开,司机根本不用操心。
自从有了LLaVA-ST这个数据集和模型,自动驾驶汽车就像变成了一个经验丰富的老司机,开车更稳、更安全,我也能更加省心了。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。