2024 年尾,国际人工智能顶会「第 39 届人工智能年会」(The 39th Annual AAAI Conference on Artificial Intelligence, AAAI 2025) 公布了本届大会论文录用结果,最终在收到的 12,957 篇投稿中,有共计 3,032 篇论文脱颖而出被收录,录取率仅为 23.4%。
其中,一篇由昆明理工大学信息工程与自动化学院李华锋、张亚飞、苏大勇团队和中国海洋大学信息科学与工程学部计算机科学与技术学院蔡青共同研究的课题——「BSAFusion: A Bidirectional Stepwise Feature Alignment Network for Unaligned Medical Image Fusion」,引起了 AI for Science 研究人员的关注。该课题聚焦于近年空前火热的医学影像处理领域,提出了一种双向逐步特征对齐 (BSFA) 的未对齐医学图像融合方法。
与传统方法相比,该研究实现了在统一的处理框架内,通过单阶段的方法对未对齐的多模态医学图像同时进行对齐和融合。不仅实现了双重任务的协调,也有效降低了因引入多个独立特征编码器而导致模型复杂的问题。
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s
医学焦点——多模态医学图像融合
所谓多模态医学图像融 (Multimodal medical image fusion,MMIF),就是将不同成像方式的医学图像数据进行融合,比如 CT、MRI、PET 等,从而生成包含更全面、更准确病变信息的新图像。这一方向的研究在近代医学和临床应用方面的价值可谓举足轻重。
原因很简单,医学影像经过数十年的技术发展和沉淀,其形式不仅变得越加丰富,在使用上也越来越普遍。比如当人们重重摔倒之后,首先想到的就是去医院通过「拍片子」的方法确定是否有骨折,而「拍片子」通常指的就是 X 光片、CT 或者 MRI 等医学影像检查。
然而,想要通过单一的医学影像就提取到足够的信息来确保临床诊断的精确度在临床医学中显然是不够的,尤其是面对疑难杂症时,比如肿瘤、癌细胞等。而多模态医学图像融合已经成为现代医学影像发展的重要趋势之一。多模态医学图像融合将不同时间、不同来源的图像集成在一个坐标系中配准,不仅极大提高了医生诊断的效率,同时多模态医学图像融合产生的更多有价值的信息,也能够帮助医生进行更专业的疾病监测并出具有效的治疗方案。
在医学图像应用之前,不少科研人员就已经注意到了图像融合的问题,并且进一步探索了将多源图像配准和融合集成到一个统一的框架中的方法,比如大名鼎鼎的 MURF,这是一种首次将图像配准和融合放到一个维度讨论解决的方法,其核心模块包括了共享信息提取模块、多尺度粗配准模块和精细配准与融合模块。
不过,正如前述所说,首先这些方法并非为多模态医学图像融合而设计,同时也没有在医学影像这一领表现出预期的优势;其次这些方法也无法解决多模态医学图像融合中所遇到最关键的挑战——用于融合的特征和用于对齐的特征两者之间不可协调的难题。
具体来说,特征对齐要求对应特征具有一致性,而特征融合则要求对应特征具有互补性。
这其实也不难理解,特征对齐就是通过各种技术手段实现不同模态数据在特征层面上的匹配和对应;而特征融合则是要能够充分利用不同模态之间的互补性,从而将抽取自不同模态的信息整合成一个稳定的多模态模型。
因此,对于 MMIF 而言,难度可想而知。这一空白不仅需要有人来填补,同时还需要能够在前人的基础上,实现多模态医学图像融合更加高效和便捷。在论文中,李华锋教授团队和蔡青副教授团队都表现出了这一初衷,并通过研究实验将其付诸实现。
从技术上具体来看,该方法提出了多个具有创新价值的设计:
- 首先,通过共享特征编码器,该方法解决了引入额外编码器进行配准而导致的模型复杂度增加的难题,并成功设计出集成了特征跨模态对齐和融合的统一有效框架,实现了对齐和融合无缝进行。
- 其次,集成模态无差异特征表示 (Modal Discrepancy-Free Feature Representatio, MDF-FR) 方法,通过向每个输入图像附加模态特征表示头 (Modality Feature Representation Head, MFRH),实现了全局特征集成,显著降低了模态差异和多模态信息不一致对特征对齐的影响。
- 最后,提出一种基于两点间矢量位移路径独立性的双向逐步变形场预测策略,可有效解决传统单阶段对准方法中遇到的大跨度和变形场预测不准确的难题。
BSAFusion 开创医学图像融合新技术方向
课题组提出的单阶段多模态医学图像配准融合框架,主要有 3 个核心的组件组成,即 MDF-FR、BSFA 和 MMFF (Multi-Modal Feature Fusion),具体如下图所示。
总体框架图
不难看出,在 MDF-FR 中,Restormer 和 Transformer 层组成了网络的编码器,从未对齐的图像对中提取特征,其中 Restormer 和 Transformer 分别有两层。通过两次特征对齐和融合后,再输入到后面的 MLP 中得到预测结果。
在这里,由于得到的两个模态差异较大,因此这些特征的跨模态匹配和变形场预测也会面临很大的挑战,因此通过生成特定的特征表示头 (modality-specific feature representation heads) 的方法,既可以减轻模态差异对变形场预测的影响,又可以防止因提取共享信息而造成非共享信息的丢失。
在后面,团队继续使用 Transfer A 和 Transfer B 用于消除模式之间的差异,每个 Transfer 块由两个 Transformer 层组成,并且它们之间不共享参数,以便进一步提取预测变形场所需要的特征。
来到 BSFA 内,研究团队设计出从两个方向预测输入图像特征的变形场——双向逐步特征对齐方法,为正反向预测都设计了 5 层变形场预测操作,对应于在两个输入源图像之间插入的 5 个中间节点,这一方法增强了对齐过程的整体鲁棒性。负责正向配准层的为 FRL,负责反向配准层的为 RRL。
最后到 MMFF 模块中,应用预测的变形场对齐特征,然后使用多个 FusionBLK 模块融合特征,最后通过重建层得到融合图像,并采用多种损失函数优化网络参数。
当然,为了保证实验的有效和严谨,课题组在实验细节上进行了细致的安排。在基于这一模型的实验中,课题组遵循现有方法的协议,使用了来自哈佛的 CT-MRI、PET-MRI 和 SPECT-MRI 数据集进行模型训练。这些数据集分别由 144、194 和 261 个严格注册的图像对组成,每个对象对的大小都为 256 x 256。
为了模拟真实场景中收集的错位图像对,本次实验中特别指定 MRI 图像作为参考,并对非 MRI 图像混合应用刚性和非刚性变形,从而创建所需的训练集。除此之外,课题组还将相同的变形应用于 20、55 和 77 对严格注册的图像,来构建一个未对齐的测试集。
训练过程采用端到端的方法,在每个数据集上训练 3,000 个 epoch,batch size 为 32。同时,使用 Adam 优化器更新模型参数,初始学习率为 5 x 10⁻⁵。使用余弦退火学习率 (Cosine Annealing Learning Rate,LR),随着时间的推移减少到 5 x 10⁻⁷。
实验使用了 PyTorch 框架,并在单个 NVIDIA GeForce RTX 4090 GPU 上进行训练。
基于课题组精密的实验细节和标准的数据集作为训练,这一方法在实验结果上也表现出了出色的水平。
实验的比较对象是目前最先进的 5 种联合配准方法,包括 UMF-CMGR、superFusion、MURF、IMF 和 PAMRFuse。其中除最后一组外,前 4 个均为非专门为多模态医学图像融合设计的方法,但已是目前最优的图像融合方法,且适用于 MMIF。如下图所示:
融合结果的视觉比较
评价结果的对比
结果明显,课题组所提的方法在特征对齐、对比度保持和细节保留等方面均呈现出比之更强的优越性,且所有指标中平均性能最佳。
团队联手为医学临床应用保驾护航
这篇研究课题的其中一位通讯作者是来自中国海洋大学信息科学与工程学部计算机科学与技术学院的副教授蔡青,其本人除了在中国海洋大学任职外,同时也在中国计算机学会 (CCF) 等多个重要学术机构担任要职。
蔡青教授主要研究方向是深度学习、计算机视觉、医学图像处理等。多模态医学图像融合作为医学图像处理的子领域,具有很强的专业知识壁垒,而蔡青多年的经验正好可以为本次课题提供指导和帮助。
值得一提的是,蔡青副教授继去年作为第一作者入选 AAAI 2024 一篇论文后,今年他再次以共同一作和通讯作者的身份,共计有 3 篇课题研究再次被 AAAI 2025 收录。其中包括了另一篇关于医学图像处理的研究,论文题目为「SGTC: Semantic-Guided Triplet Co-training for Sparsely Annotated Semi-Supervised Medical Image Segmentation」,在这篇论文中,研究人员提出了一种新的语义引导的三元组协同训练框架,仅通过标注少量体样本的 3 个正交切片就能实现可靠的医学图像分割,解决了图像标注过程费时费力的难题。
论文地址:
https://arxiv.org/abs/2412.15526
而这次课题的另一组团队是来自昆明理工大学信息工程与自动化学院的李华锋教授、张亚飞团队。其中李华锋教授曾入选 2021 年全球前 2% 顶尖科学家最新榜单,主要从事计算机视觉、图像处理等研究。本文另外一位通讯作者张亚飞副教授主要研究方向是图像处理、模式识别,多次主持国家自然科学基金地区项目和云南省自然科学基金面上项目。
作为本次课题中重要的学术担当之一的李华锋教授,曾多次发表医学图像处理方向的研究,如早在 2017 年发表了题为 「基于稀疏表示的医学图像融合」的研究,2023 年发布了「Feature dynamic alignment and refinement for infrared–visible image fusion: Translation robust fusion」为题的研究等等。
论文地址:
https://liip.kust.edu.cn/servletphoto?path=lw/00000311.pdf
论文地址:
https://www.sciencedirect.com/science/article/abs/pii/S1566253523000519
另外,李华锋还与张亚飞教授多次搭档,共同发表相关研究,比如在 2022 年共同发表的题目为「多尺度特征学习和边缘增强的医学图像融合」的研究。在这个研究中,团队提出了一种基于多尺度特征学习和边缘增强的医学图像融合模型,可以缓解医学图像融合中不同器官之间的边界模糊问题,所提方法得到的结果无论从主观视觉效果还是客观定量评价,均优于对比方法。
论文地址:
https://researching.cn/ArticlePdf/m00002/2022/59/6/0617029.pdf
正所谓强强联合,无懈可击,李华锋、张亚飞教授团队和蔡青副教授在医学图像处理领域专业的学术能力无疑正是本次课题成功关键。期待双方持续合作,并在未来的 AI for Science 领域继续发表前沿成果。
混合的多模态医学图像融合手段成为趋势
随着多模态医学图像融合发挥的作用越来越大,其技术发展势必将会朝着融合、智能的方向发展。
如本课题提到,在基于深度学习的融合方法研究中,研究人员注意到基于 CNN 的方法和 Transformer 的方法具有优势上的互补性,因此有研究人员提出了 DesTrans、DFENet 以及 MRSC-Fusion 等成果,这些研究通过混合的方式,使得两种技术之间优势互补,进而提升了融合手段效率。
而多模态医学图像融合的方法除了基于深度学习的融合方法外,还包括有传统的融合手段,比如多尺度变换、稀疏表示、基于子空间、基于显著特征、混合模型等。同样的,也涌现了基于深度学习+传统方法的混合手段。
综合以上研究的趋势可以窥见,未来在多模态医学图像融合的方法上,势必会呈现基于深度学习为主流,同时混合多种技术辅助的发展趋势。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。