中国研究机构改进多模态推理模型LLaVA-CoT
来自多个中国研究机构的研究人员通过改进Llama-3.2-11B-Vision-Instruct模型,提升了其在多模态推理任务中的表现。新模型名为LLaVA-CoT,采用了结构化推理方法,超越了传统的直接回答或链式思维(CoT)方法。LLaVA-CoT在多个基准测试中表现优异,甚至优于更大的模型,如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。
问题背景与解决方案
研究人员指出,视觉语言模型(VLMs)常常产生幻觉或错误的原因在于缺乏系统化和结构化的推理。为了解决这一问题,他们设计了LLaVA-CoT模型,使其通过四个阶段进行推理:总结、描述、推理和结论。具体来说,模型首先总结当前任务,然后描述图像的相关部分,接着分析问题,最后基于推理阶段得出结论。
数据集与模型训练
为了使这一方法可行,研究人员使用GPT-4o生成分阶段的响应,构建了一个名为LLaVA-o1-100k的特定数据集。该数据集包含来自通用视觉问答(VQA)数据集和科学导向的VQA数据集的数据。随后,他们使用该数据集对Llama-3.2-11B-Vision-Instruct进行全参数微调,采用监督学习方法。
推理时间扩展的新方法
LLaVA-CoT还引入了一种新的推理时间扩展方法。与在句子级别使用束搜索(beam search)不同,他们在阶段级别使用束搜索,以在每个阶段生成多个候选结果。然后选择最佳潜在结果继续下一阶段的生成过程。这种方法使得模型能够在推理过程中得出具体答案,并在最终阶段保留该答案,从而避免了最终阶段的猜测,减少了错误结果的可能性。
性能评估
研究人员通过比较LLaVA-CoT与其基础模型以及其他模型的性能,发现LLaVA-CoT在通用VQA、数学推理、科学VQA和幻觉控制任务中均表现出显著改进。此外,LLaVA-CoT在许多类似或更大规模的开源模型(如InternVL2-8B、Ovis1.5-Gemma2-9B、MiniCPM-V2.6-8B、Llama-3.2-90B-Vision-Instruct和VILA-1.5-40B)以及闭源模型(如GPT-4o-mini和Gemini-1.5-pro)中也表现优异。
可用性与未来计划
LLaVA-CoT已在Hugging Face上发布,并且LLaVA-o1-100k数据集将在未来公开。此外,研究人员还提供了一个Web应用程序,用户可以通过上传图像并与其进行对话。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。