2025-03-18,由斯坦福大学、清华大学等联合创建了 MicroVQA 数据集,这是一个针对显微镜科学研究的视觉问答基准,目的评估专家图像理解、假设生成和实验设计这三种对科学研究至关重要的推理能力,填补了现有基准在复杂多模态科学推理方面的空白,为推动 AI 驱动的生物医学研究提供了宝贵资源。
一、研究背景
科学研究尤其是生物学领域,需要对多模态数据进行复杂的推理,但现有的多模态大型语言模型(MLLMs)在 AI 辅助研究中的表现并不尽如人意。尽管在多模态数据理解、回忆和多步推理方面取得了一定进展,但这些模型往往缺乏针对真实科学挑战所需的专门化、情境化推理能力,尤其是在需要高级图像推理、分析以及基于假设的实验设计等任务时。
目前遇到困难和挑战:
1、现有的多模态推理基准大多只针对大学水平难度,而研究级别的基准则侧重于低级感知,无法满足复杂科学发现所需的多模态推理能力。
2、多模态科学推理基准的缺乏,使得难以有效评估和推动 AI 在科学研究中的应用,因为与学校和大学水平的任务不同,研究任务需要专家进行精心策划和设计。
3、标准的多项选择题(MCQ)生成方法存在语言捷径问题,无法真正测试模型的多模态能力,导致现有的多模态推理基准无法准确评估模型在科学研究场景下的实际表现。
数据集地址:MicroVQA|生物显微镜学数据集|视觉问答数据集
二、让我们一起来看一下MicroVQA
MicroVQA :是一个针对显微镜科学研究的视觉问答(VQA)基准数据集,包含 1042 个由生物学专家策划的多项选择题(MCQs),涵盖多种显微镜模态,能够真实反映科学研究实践中的多模态推理需求。
MicroVQA 数据集包含 1042 个 VQA 三元组,由来自不同领域的专家生物学家手动策划。
测试任务:专家创建的题目测试了三种关键任务,分别是:专家图像理解、假设生成、实验设计。
显微镜模态:涵盖了多种常见的显微镜模态,具体包括:明场、荧光、电子显微镜
样本类型:样本类型覆盖了从组织到细胞、亚细胞和原子等不同微观尺度。
生物体重点:重点涉及与人类生物学和医学任务相关的生物体,如人类和小鼠。
元数据标签:提供了丰富的元数据标签,包括:图像模态、尺度、生物体、研究领域等
数据集构建:
第一阶段:定义任务与招募专家
- 任务定义:研究人员定义了三个关键任务。
- 专家招募:招募了12名人类专家。
第二阶段:创建原始VQA样本
- 样本数量:每位专家创建大约90个VQA样本。
- 创建时间:每个样本的创建大约需要30-40分钟。
- 样本内容:专家们提交的原始VQA三元组包含以下信息:图像集、问题、详细回答、实验背景。
第三阶段:样本转换为多项选择题(MCQs)
- 转换方式:通过手动转换和优化大型语言模型(LLM)提示,将原始样本转换为符合考试风格的多项选择题(MCQs)。
第四阶段:优化MCQ难度
- 优化工具:研究人员开发了RefineBot,这是一种基于代理的系统。
- 优化目标:通过迭代改进MCQ,去除语言捷径,确保其能够更好地测试真正的科学能力。
数据集特点:
1、多模态推理需求:MicroVQA 要求模型具备将视觉信息与实验背景相结合的能力,不仅需要识别图像中的科学相关特征,还要能够基于这些信息进行假设生成和实验设计。
2、专家策划与真实科学实践:数据集中的所有问题均由生物学专家精心策划,确保其能够真实反映科学研究中的实际推理任务,避免了现有基准中常见的简单感知和事实回忆类问题。
3、多模态基准测试:MicroVQA 是首个专注于科学研究的多模态推理基准,其难度和推理水平远高于现有的多模态基准,为评估和推动 AI 在科学研究中的应用提供了全新的视角和挑战。
基准测试:
研究人员对当前最先进的多模态大型语言模型进行了基准测试,发现即使是表现最好的模型,其最高准确率也仅为 53%,这表明当前模型与专家级科学推理之间存在显著差距。测试结果还显示,较小的 LLM 模型仅略逊于顶级模型,这表明语言推理并非是 MicroVQA 中最具挑战性的部分,多模态推理或知识才是关键。
此外,通过在科学文章上对 MLLMs 进行微调可以提升其在 MicroVQA 上的表现。专家对模型的推理过程进行分析后发现,感知错误是最常见的错误类型,其次是知识错误,最后是过度泛化错误,这些分析结果进一步凸显了多模态科学推理中的挑战。
科学实验工作流程推动发现:研究人员分析实验,提出假设,并设计进一步的实验来验证他们的想法。我们发布了 MicroVQA,这是一种视觉问答 (VQA) 基准测试,用于在生物显微镜的背景下测试这三项任务。1,042 个样本中的每一个都由生物学专家创建,并转化为多项选择题 (MCQ)。
MicroVQA 基准测试属性。
子任务的 MicroVQA 分类法。
通过分类展示了MicroVQA任务的多样性和复杂性,涵盖了从视觉理解到假设生成,再到实验设计和问题解决的各个方面。
专家视觉理解(Expert Visual Understanding)
- 比较图像集(Compare image sets):例如,比较两幅图像中线粒体形态的差异。
- 识别异常(Identify abnormalities):例如,判断细胞核是否不健康,以及形状如何反映这一点。
假设生成(Hypothesis generation) - 因果机制(Causal mechanisms):例如,探讨哪些基因失调可能导致观察到的细胞质形状。
- 功能影响(Functional implications):例如,考虑到中心体的意外定位,这将如何影响肝功能。
实验提案(Experimental Proposal) - 提出新实验(Suggest new experiment):例如,提出新的实验来测试某个基因是否导致这些问题。
- 解决技术问题(Address technical issues):例如,解决染色未达到预期目标和信噪比低的问题,并提出改进方法。
比较接近 MicroVQA 的科学多模态基准在大学以外的推理水平或难度。
Bloom's Levels(Bloom分类学-布鲁姆分类学):
1 - Recall(记忆):最低层级,涉及记忆事实和信息。
2 - Comprehension(理解):理解信息的含义。
3 - Application(应用):应用知识解决具体问题。
4 - Analysis(分析):分析和分解信息。
5 - Evaluation(评价):评估和判断信息的价值。
6 - Synthesis(综合):最高层级,涉及创造性地综合信息。
构建 MicroVQA 多项选择题。
三、展望MicroVQA的场景
比如,你是一名生物医学研究员,正在研究一种新的抗癌药物。你的任务是看看这种药物对癌细胞有什么影响,特别是细胞的形态变化。以前,这个过程是这样的:
1、准备样本:你得先在实验室里培养癌细胞,然后用你的新药物处理一部分细胞,另一部分作为对照组不加药物。
2、显微镜观察:处理完后,你得用显微镜观察这些细胞。你得一张一张地看那些细胞图像,记录下每个细胞的形态变化。比如,细胞有没有变小,细胞核有没有变化,细胞是不是开始聚集在一起等等。
3、手动分析:观察完图像后,你得手动记录下所有的变化,然后根据你的生物学知识去推测这些变化可能意味着什么。比如,你可能会想:“嘿,这些细胞看起来像是在凋亡,这可能是因为药物激活了细胞内的某些信号通路。”
4、设计实验:基于你的观察和推测,你得设计进一步的实验来验证你的假设。比如,你可能会决定检测一些特定的蛋白质表达,看看药物是否真的激活了细胞凋亡的信号通路。
5、重复实验:这个过程得反复做很多次,因为你得确保你的观察和推测是准确的。每次都要花费大量的时间和精力,而且有时候你可能会因为疲劳或者主观判断而错过一些重要的细节。
现在,有了MicroVQA数据集,这个过程变得高效多了。
MicroVQA就像是一个超级智能的助手,帮你处理那些繁琐的图像分析工作,还能给你提供建议。具体来说,变化是这样的:
1、准备样本:你还是得先准备样本,这一步没变。你培养癌细胞,用药物处理一部分,另一部分作为对照。
2、显微镜观察:你用显微镜拍下细胞图像,这也没变。但接下来的事情就大不一样了。
3、AI分析:现在,你把这些图像输入到基于MicroVQA训练的AI模型中。这个AI模型就像是一个经验丰富的老研究员,它会自动分析这些图像,告诉你细胞形态的变化。比如,它会说:“我看到这些细胞在药物处理后出现了明显的凋亡特征,细胞体积变小,细胞核固缩。”
3、生成假设:AI模型不仅会告诉你观察到的变化,还会根据这些变化生成可能的假设。比如,它会说:“根据这些细胞形态的变化,我推测药物可能激活了细胞凋亡的信号通路,特别是p53信号通路。”
4、设计实验:AI模型还会给你提供建议,告诉你下一步该怎么做。比如,它会说:“为了验证我的假设,你可以检测一下p53蛋白的表达水平,看看药物处理后p53蛋白是否增加。”
5、验证实验:你按照AI模型的建议去做实验,检测p53蛋白的表达。结果发现,药物处理后p53蛋白的表达确实增加了,这验证了AI模型的假设。
6、重复实验:虽然你还是需要重复实验来确保结果的可靠性,但AI模型的分析和建议大大减少了你需要做的工作量,也提高了你的工作效率。
有了MicroVQA,你不仅节省了大量的时间和精力,还能更准确地分析细胞图像,生成更合理的假设,并设计更有效的实验。这就像你有了一个超级智能的助手,帮你处理那些繁琐的工作,让你可以更专注于科学研究的核心部分。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。