LLaVA-CoT展示了如何在视觉语言模型中实现结构化、自主推理

中国研究机构改进多模态推理模型LLaVA-CoT

来自多个中国研究机构的研究人员通过改进Llama-3.2-11B-Vision-Instruct模型，提升了其在多模态推理任务中的表现。新模型名为LLaVA-CoT，采用了结构化推理方法，超越了传统的直接回答或链式思维（CoT）方法。LLaVA-CoT在多个基准测试中表现优异，甚至优于更大的模型，如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。

问题背景与解决方案

研究人员指出，视觉语言模型（VLMs）常常产生幻觉或错误的原因在于缺乏系统化和结构化的推理。为了解决这一问题，他们设计了LLaVA-CoT模型，使其通过四个阶段进行推理：总结、描述、推理和结论。具体来说，模型首先总结当前任务，然后描述图像的相关部分，接着分析问题，最后基于推理阶段得出结论。

数据集与模型训练

为了使这一方法可行，研究人员使用GPT-4o生成分阶段的响应，构建了一个名为LLaVA-o1-100k的特定数据集。该数据集包含来自通用视觉问答（VQA）数据集和科学导向的VQA数据集的数据。随后，他们使用该数据集对Llama-3.2-11B-Vision-Instruct进行全参数微调，采用监督学习方法。

推理时间扩展的新方法

LLaVA-CoT还引入了一种新的推理时间扩展方法。与在句子级别使用束搜索（beam search）不同，他们在阶段级别使用束搜索，以在每个阶段生成多个候选结果。然后选择最佳潜在结果继续下一阶段的生成过程。这种方法使得模型能够在推理过程中得出具体答案，并在最终阶段保留该答案，从而避免了最终阶段的猜测，减少了错误结果的可能性。

性能评估

研究人员通过比较LLaVA-CoT与其基础模型以及其他模型的性能，发现LLaVA-CoT在通用VQA、数学推理、科学VQA和幻觉控制任务中均表现出显著改进。此外，LLaVA-CoT在许多类似或更大规模的开源模型（如InternVL2-8B、Ovis1.5-Gemma2-9B、MiniCPM-V2.6-8B、Llama-3.2-90B-Vision-Instruct和VILA-1.5-40B）以及闭源模型（如GPT-4o-mini和Gemini-1.5-pro）中也表现优异。

可用性与未来计划

LLaVA-CoT已在Hugging Face上发布，并且LLaVA-o1-100k数据集将在未来公开。此外，研究人员还提供了一个Web应用程序，用户可以通过上传图像并与其进行对话。