头图

在 AI 驱动的医疗影像管理领域,医疗图像重识别 (MedReID) 作为一项关键技术,旨在自动关联来自不同模态、不同时间的患者影像数据,进而为个性化诊疗提供强有力的数据支撑。但此领域还鲜有探索,传统方法大多依赖于低层次的图像特征或手工维护的元数据,难以满足临床上对海量、多模态影像准确匹配的需求。

针对这一挑战,上海人工智能实验室联合多家知名高校共同提出了 MaMI (Modality-adaptive Medical Identifier) 模型。这是一种全新的医疗图像重识别方法,通过引入连续模态参数适配器,突破传统单一模态限制,使得一个统一的模型能够在运行时自动调整为适合当前输入(如 X-ray 、 CT 、眼底、病理、 MRI 等)的模态专用模型。

凭借这一策略,MaMI 在 11 个公开医疗影像数据集上的评测中均展现出最先进的重识别性能,为个性化医疗提供了精准、动态的历史影像数据检索支持。

论文地址:
https://arxiv.org/pdf/2503.08173

代码与模型开源地址:
https://github.com/tianyuan168326/All-in-One-MedReID-Pytorch

研究亮点

提出全一体医学重识别模型 (MaMI)

研究团队首次构建了一个能够统一处理多种模态医学影像重识别问题的模型,使用单一模型实现了不同模态(如 X 光、 CT 、眼底、病理、 MRI 等)影像的识别。

建立完善的医学重识别基准

研究团队在 11 个涵盖多种影像模态和不同器官的公共医学影像数据集上构建了全面且公平的基准,为该问题的后续研究提供了标准化评测平台。

设计连续模态参数适配器 (ComPA)

研究团队创新性地提出了连续模态参数适配器,能够根据输入图像动态生成模态特定参数,从而将原本的模态无关模型调整为适应当前输入特性的模态专用模型。

集成医疗先验知识

研究团队通过对跨图像差异进行建模,将预训练的医疗基础模型中的丰富医疗先验知识迁移到重识别任务中,有效提升了模型对细微身份线索的捕捉能力。

在实际场景中验证应用价值

* 历史数据辅助诊断: MaMI 能够从未组织好的历史影像数据中检索出个性化患者信息,从而显著提高现有医疗检查的准确性;

* 隐私保护: MaMI 可以检测出影像中细微的身份信息,并在数据共享前自动将其移除,确保在保护患者隐私的同时保持必要的医学信息。

模型架构:引入基于连续模态的参数适配器

医疗影像管理领域主要存在历史影像管理机隐私保护两大挑战。

首先,传统方法主要依赖于手动将影像与患者元数据(如姓名、病历号)预先连接,并通过查询系统来检索影像。但当数据存储在不同的 PACS 平台时,这种链接往往不完整或不准确,难以实现高效管理,因此亟需一种能够从分散且组织不良的数据中准确检索患者历史影像的方法,为疾病诊断提供可靠的历史证据。

其次,目前大部分隐私保护措施仅侧重于去除显性信息(如患者姓名),然而已有研究发现,影像中还存在能够泄露患者身份的细微视觉线索。理想的医疗图像重识别模型应能自动检测图像中与身份相关的区域,并通过适当的后处理将这些区域变为不可识别状态,从而在保障数据的医学实用性的前提下,有效降低隐私泄露风险。

针对上述挑战,尽管少量研究已开始探索医学图像重识别问题,但大多工作局限于特定模态。已有研究例如:

* Fukuta 等人和 Singh 等人利用低级特征对眼底图像进行身份识别;

* Packhauser 等人则采用神经网络实现对胸部 X 光片的重识别。

这些方法均针对单一模态设计,难以从多模态数据之间的互补优势中获益,同时它们对医疗先验信息的利用较少,限制了模型的泛化能力。

总体来说,现有研究在医学图像重识别领域尚处于起步阶段,亟需发展一种能够整合多模态信息、同时兼顾历史影像管理与隐私保护的统一解决方案。

而上海人工智能实验室联合多家高校提出的 MaMI 主要有两点创新,其一是通过在运行时将一个模态无关模型升级为模态特定模型,来实现模态自适应特征提取;其二是通过将医疗基础模型中的丰富医疗先验迁移至医学重识别任务,从而优化模型,使其更加关注医学相关区域。

如下图 (a) 所示,研究人员引入了一种基于连续模态的参数适配器 (ComPA),在运行时动态地将一个模态无关的模型调整为适用于当前输入模态的模型。调整后的模型从输入的医疗图像中提取与身份相关的视觉特征,如下图 (b) 所示。在优化过程中,研究人员通过对齐图像间关键差异,将丰富的医疗先验知识从医疗基础模型 (MFMs) 迁移到医学重识别任务中,如下图 (c) 所示。

图 1:MaMI 模型概览。

基于连续模态的参数适配器 (ComPA)

为了充分捕捉不同医学图像模态下的特定特征,研究人员发现简单微调统一模型难以发挥各模态优势(如表 1),因此需要采用模态自适应特征提取。为此,其设计了 ComPA 模块,该模块通过连续模态表示与低秩参数预测,在运行时动态生成输入图像专属的模型参数,有效弥补了统一模型中模态特定信息不足的问题。

表 1:不同模态处理策略比较。采用 MIMIC-X 和 Mess2 数据集,对 X 光和眼底图像的性能进行了评估。

从医学基础模型中迁移医学先验到 ReID 模型

单纯依赖重识别损失可能使模型过于关注琐碎纹理(如设备噪声),而忽略了患者内在的生物特征。相比之下,大规模医学图像上预训练的医学基础模型 (MFMs) 侧重于解剖结构,为身份识别提供了更丰富的医疗先验,因此,研究人员将其先验知识迁移到重识别模型中,并利用局部特征图对模型进行引导。

为弥合 MFMs 预训练任务与 MedReID 任务之间的领域差异,其提出了两种策略:

首先是关键结构自适应选取。研究人员先将图像的模态特征投影为一组模态特定的查询 Token,这些 Token 能捕捉各模态下的关键结构信息,如胸部 X 光中的器官轮廓或眼底图像中的血管分布。随后,通过交叉注意力机制,这些查询 Token 与局部特征图匹配,从而实现关键医学语义特征的精准选取。相对于使用全部特征信息,关键结构的提取降低了过拟合风险。

其次是基于结构残差的先验学习。不同于常规的特征直接对齐的方式,研究人员对图像间差异特征 (Inter-image Difference) 进行对齐,利用对比损失学习图像间的细微差别,从而提升模型对身份特征的捕捉能力。

实验结果:在实际应用场景中验证价值

第一个医学 ReID 榜单

如下表所示,研究人员评估了视觉基础模型、视觉语言基础模型、重识别模型、医学基础模型及单模态 MedReID 模型,为了充分激发它们的潜力并确保公平比较,其对具有代表性的模型均进行了微调。结果显示,MaMI 在多项测试中持续 SOTA 。

医学 ReID 榜单

应用场景 1:历史病例自动化检索,助力精准医疗

在实际场景中,考虑到患者以往医学影像管理不善的问题,研究团队提出了利用 MaMI 检索当前影像相关的历史影像,并通过简单的 MLP 将多幅历史影像特征融合,以辅助诊断且仅依赖影像信息,不需历史标签。

当检索 5 幅历史影像时,诊断准确率从 77.34% 提升至 80.12%,增幅达 2.78%,证明了 MaMI 在利用非结构化档案中历史数据提升临床实用性方面的有效性;进一步的对比实验表明,该方法在影像检索性能上始终优于基于外观 (DINOv2) 、基于症状 (Med-Unic) 以及专为 X 光设计的 ReID 方法 (Packhauser et al.) 。

历史图像数量对诊断结果的影响

应用场景 2:自动化隐私保护,助力大模型时代下的伦理安全

研究人员采用一个简单的 U-Net 模型来预测并移除图像中与身份相关的视觉特征,引入其 ID 模型作为身份相似度 Loss,使得身份特征相似度降低而医学特征相似度保持较高。在 MIMIC-X 数据集上训练并在 Chest-X 数据集评估结果显示,保护后的图像在抵御重识别攻击的同时,疾病分类准确率仅略低于原始图像。结果如下表所示:

在呼吸系统数据集的测试集上,使用 X 光图像检索匹配的同一患者的 CT 图像

结语

MaMI 模型统一了医疗图像重识别与隐私保护任务,并显著提升了历史影像检索与身份信息防护的整体性能。 MaMI 的增强效果得到了扎实的理论分析和全面的实验验证的支持。我们相信,创新的连续模态参数适配器及其融合医疗先验知识的设计为多模态医疗影像管理提供了全新的范式,并有望激发更多面向个性化诊疗与隐私保护的高级影像处理技术的发展。

此外,上海人工智能实验室新成立的大模型评测团队正在招聘实习生,感兴趣的小伙伴可以点击次条查看详情,或是直接将个人简历发送至 mailto:tianyuan@pjlab.org.cn 。


超神经HyperAI
1.4k 声望8.8k 粉丝