LLaVA-CoT展示了如何在视觉语言模型中实现结构化、自主推理

中国研究机构改进多模态推理模型LLaVA-CoT

来自多个中国研究机构的研究人员通过改进Llama-3.2-11B-Vision-Instruct模型,提升了其在多模态推理任务中的表现。新模型名为LLaVA-CoT,采用了结构化推理方法,超越了传统的直接回答或链式思维(CoT)方法。LLaVA-CoT在多个基准测试中表现优异,甚至优于更大的模型,如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。

问题背景与解决方案

研究人员指出,视觉语言模型(VLMs)常常产生幻觉或错误的原因在于缺乏系统化和结构化的推理。为了解决这一问题,他们设计了LLaVA-CoT模型,使其通过四个阶段进行推理:总结描述推理结论。具体来说,模型首先总结当前任务,然后描述图像的相关部分,接着分析问题,最后基于推理阶段得出结论。

数据集与模型训练

为了使这一方法可行,研究人员使用GPT-4o生成分阶段的响应,构建了一个名为LLaVA-o1-100k的特定数据集。该数据集包含来自通用视觉问答(VQA)数据集和科学导向的VQA数据集的数据。随后,他们使用该数据集对Llama-3.2-11B-Vision-Instruct进行全参数微调,采用监督学习方法。

推理时间扩展的新方法

LLaVA-CoT还引入了一种新的推理时间扩展方法。与在句子级别使用束搜索(beam search)不同,他们在阶段级别使用束搜索,以在每个阶段生成多个候选结果。然后选择最佳潜在结果继续下一阶段的生成过程。这种方法使得模型能够在推理过程中得出具体答案,并在最终阶段保留该答案,从而避免了最终阶段的猜测,减少了错误结果的可能性。

性能评估

研究人员通过比较LLaVA-CoT与其基础模型以及其他模型的性能,发现LLaVA-CoT在通用VQA、数学推理、科学VQA和幻觉控制任务中均表现出显著改进。此外,LLaVA-CoT在许多类似或更大规模的开源模型(如InternVL2-8B、Ovis1.5-Gemma2-9B、MiniCPM-V2.6-8B、Llama-3.2-90B-Vision-Instruct和VILA-1.5-40B)以及闭源模型(如GPT-4o-mini和Gemini-1.5-pro)中也表现优异。

可用性与未来计划

LLaVA-CoT已在Hugging Face上发布,并且LLaVA-o1-100k数据集将在未来公开。此外,研究人员还提供了一个Web应用程序,用户可以通过上传图像并与其进行对话。

阅读 96
0 条评论