病理图像包含了丰富的表型信息,依据病理图像进行病理诊断被广泛视为癌症诊断的「黄金标准」。其中,全视野切片图像 (Whole Slide Image, WSI) 是一种高分辨率的数字病理图像,利用全切片数字扫描技术将病理组织切片转换为高达 10 亿像素级别的数字图像,具有高分辨率、全景展示、数据量大等特点,是当前医学诊断、医学研究的主流方法。
多示例学习 (Multi-Instance Learning, MIL) 是当前分析 WSI 的主要方法之一,并在肿瘤检测、组织微环境量化和生存预测等任务中取得较好表现。然而,由于 WSI 包含巨量信息,使得利用 MIL 进行推理面临着高昂成本的挑战。首先是数据预处理问题,WSI 裁剪和特征提取过程非常耗时;其次是冗余补丁问题,WSI 中通常包含冗余补丁,对 bag-level classification 贡献最小。通过注意力分数剔除不相关示例是解决以上问题最简单的方法,然而现有的 MIL 算法需要在计算注意力分数之前提取所有裁剪块的特征,这无疑就造成了「鸡和蛋」的问题。
基于上述分析,来自中国哈尔滨工业大学的江俊君教授、江奎副教授和哈尔滨工业大学(深圳)的张永兵教授等人,创新地展示了一种可减少推理时间的解决方案。该团队提出一种分层蒸馏多示例学习框架 (Hierarchical Distillation Multi-Instance Learning, HDMIL),旨在快速识别不相关的 patches,从而实现快速而准确的分类。从实验结果来看,相比此前先进方法,HDMIL 在 3 个公开数据集上的推理时间降低了 28.6% 。
相关成果以「Fast and Accurate Gigapixel Pathological Image Classification with Hierarchical Distillation Multi-Instance Learning」为题发表,并入选了 CVPR 2025 。
研究亮点:
*所提方法加快推理过程的同时也提升了分类性能,实现了传统方法无法达到的速度与性能之间的平衡,并为多示例分类的未来研究提供了启发
*该方法中首次展示了基于 Chebyshev 多项式的 Kolmogorov-Arnold 分类器,并将其应用于数字病理学中,大幅提升了分类性能
*所提方法通过了大量实验的验证,并在 3 个公开数据集上取得了可靠、有效的验证结果
论文地址:
https://arxiv.org/abs/2502.21130
数据集:三大公开数据集验证有效性
为了保证实验的有效性,研究人员在 3 个公开数据集上评估了所提方法的有效性:
*使用 Camelyon16 数据集进行乳腺癌淋巴转移检测,其中训练集和验证集的比例按照官方训练集 9:1 划分,官方测试集用于跨所有折叠进行测试
*使用 TCGA-NSCLC 数据集进行肺癌分型,数据集按照 8:1:1 的比例划分为训练集、验证集和测试集
*使用 TCGA-BRCA 数据集进行乳腺癌亚型分类,训练集、验证集和测试集的划分比例同样是 8:1:1
值得注意的是,所有的 WSI 都通过 CLAM 开发的工具进行了预处理,实验遵循 10-fold Monte Carlo cross-validation 验证。
模型架构:两阶段架构涉及训练推理,创新引入 Kolmogorov-Arnold 分类器
研究所提 HDMIL 框架涉及训练和推理两部分。在该框架中,关键的组件有两个,一是动态多示例网络 (dynamic multi-instance network, DMIN),旨在对高分辨率 WSI 进行分类,并识别与 bag-level classification 无关的 instance;二是轻量级示例预筛选网络 (lightweight instance prescreening network, LIPN),一个专门为低分辨率 WSI 量身定制的网络。
在训练之前,研究人员首先按照病理 WSI 的标准程序对输入数据进行了预处理,数据集由 S 个带有载玻片标签的 WSI 金字塔组成,每个 Xᵢ 包含一对高分辨 (20 x) 和低分辨率 (1.25 x) WSI,分别表示为 Xᵢ,ₕᵣ 和 Xᵢ,ₗᵣ。
HDMIL 总体框架
具体来说,图 a 所示为训练阶段,如下图所示。研究人员首先采用自蒸馏训练策略利用高分辨率 WSI (Xᵢ,ₕᵣ) 训练 DMIN,使其能够进行 bag-level classification 和指示不相关区域。 DMIN 虽然成功识别了 WSI 中的不相关区域,却并没有提升推理速度。因为 DIMN 需要使用特征提取器生成的所有 patch 的特征来确定应该消除哪些 instance,而 patch-wise 的特征提取实际上才是打破 WSI 推理速度瓶颈的关键。
训练阶段
因此,研究人员随后冻结 DMIN 并使用生成的掩码来提取 LIPN 。如上所述,LIPN 是一个专门为低分辨率 WSI 量身定制的轻量级 instance 预筛选网络,其使用低分辨率 WSI (Xᵢ,ₗᵣ) 进行交叉蒸馏训练得到,可以快速识别低分辨率 WSI 中的不相关区域,从而间接指示高分辨率 WSI 中的不相关 patch 。
具体实现方式上,研究人员采用了被广泛使用的 ResNet-50 作为特征提取器,这是一个在 ImageNet 上预训练的得到的模型,并使用 MobileNetV4 的轻量级变体进行预筛选网络 LIPN 。通过以上步骤,研究人员以极低的计算成本实现了对每个区域的二元重要性(重要与否)的判别。
图 c 展示了 DMIN 在高分辨率 WSI (Xᵢ,ₕᵣ) 上的自蒸馏训练,如下图所示。可见 DMIN 由 5 个模块组成,包括 投射模块 (Projection Module) 、注意力模块 (Attention module) 、教师分支 (Teacher Branch) 、学生分支 (Student Branch) 和 CKA 分类器 (CKA classifiers) 。
DMIN 的自蒸馏训练
具体来看,首先从高分辨率 WSI (Xᵢ,ₕᵣ) 中提取的所有 patch 都被输入到预训的练特征提取器中,生成一组示例级特征 Iᵢ,ₕᵣ,然后继续输入到投射模块中进行降维,得到新的特征集 Fᵢ,ₕᵣ,之后继续输入到注意力模块中以计算未归一化的注意力分数。
在教师分支中,使用每个类别的注意力矩阵对降维后的 Fᵢ,ₕᵣ 进行线性加权,以产生用于最终分类的 bag-level representation 。学生分支中仅使用具有较大注意力分数的示例子集来计算 bag-level representation,同时研究人员还施加了约束,以确保其 bag-level representation 与使用全部 instance 在教师分支中获得的表示尽可能保持一致。通过该方法,实现了注意力模块更多地关注对 bag-level classification 更重要的 instance,并过滤不相关 instance 。同时优化过程还采用了 Gumbel trick 选择性地使用具有更高注意力分数的 instance 进行端到端训练,避免了不可微问题的发生。
最后,为了增强 MIL 分类器的能力,研究人员提出了使用 Kolmogorov-Arnold 网络学习非线性的激活函数,而非在分类器中使用固定的激活函数。并且通过设计混合损失函数,研究人员促成了 DMIN 三个培训目标的达成,第一是教师分支可以正确分类 Xᵢ,ₕᵣ,第二是学生分支中使用部分 instance 能够和教师分支中使用全部 instance 的分类结果相一致,第三是选取的 instance 比例应可控。
图 b 所示为推理阶段,如下图所示。具体过程可以分为三步:第一步是裁剪低分辨率 WSI (Xᵢ,ₗᵣ) 中的所有 patch,总数为 Nᵢ;第二步是将这些 patch 输入到 LIPN,以识别与分类相关区域,生成 Mᵢ,ₗᵣ;第三步是基于 Mᵢ,ₗᵣ 有选择性地裁剪 Xᵢ,ₕᵣ 中相应的 patch,然后将剩余的 patch 输入到特征提取器和 DMIN 中,最后通过跨类别的学生分支分别计算,生成最终分类结果。
推理阶段
研究结果:「简配」HDMIL 仍优于现有先进方法
基于 Camelyon16 、 TCGA-NSCLC 、 TCGA-BRCA 三个数据集,研究人员将 HDMIL 与 11 种 MIL 方法进行了分类性能的对比,包括 Max-pooling 、 Mean-Pooling 、 ABMIL 、 CLAMSB 、 CLAMMB 、 DSMIL 、 TransMIL 、 DTFDAFS 、 DTFDMAS 、 S4MIL 、 MambaMIL 。
值得一提的是,研究人员对 HDMIL 进行了不同配置的测试,分别为 HDMIL† 和 HDMIL,前者表示仅使用 DMIN 进行推理,而不通过 LIPN 进行预筛选 instance 。具体结果如下图所示:
HDMIL 与现有 MIL 方法的对比
可见,无论是 HDMIL† 还是 HDMIL,在 3 个数据集上的测试结果始终优于现有方法,例如在 Camelyon16 数据集上,HDMIL 达到了 90.88% 的 AUC 和 88.61% 的准确率,分别比此前最优方法提升了 3.13% 和 3.18% 。
与此同时,当数据集足够大时,HDMIL 提升速度的同时也不会影响分类性能。例如在 TCGA-NSCLC 和 TCGA-BRCA 上,两者都包含 1,000 个左右的 WSI,但 HDMIL† 和 HDMIL 之间测试性能的差距并不大,证明了 HDMIL 在推理速度和分性能上做到了极佳的平衡。
另外,HDMIL† 在处理时间上与其他现有方法持平,而 HDMIL 则显著优越于所有方法,这是因为 HDMIL† 与其他方法一样,都需要处理相同数量的高分辨率 patch 。而 HDMIL 通过 LIPN 减少了这一数据处理时花费的时间,因此在三个数据集上与其他方法比较大幅降低了推理花费的时间,分别实现了 28.6% 、 21.8% 和 7.2% 的速度提升。
为了分析各成分的影响,研究人员进行了消融实验,对 HDMIL 中每个模块对分类结果的影响给出进一步说明,如下图所示。研究结果发现,通过提出的 CKA 分类器取代传统的基于线性层的分类器,并将自蒸馏纳入 DMIN 训练中,都显著提高了分类性能。
HDMIL 中各组成部分对分类性能的影响
总的来说,HDMIL 的提出无疑是一种新的思路和尝试,通过大量实验证明了其思想的可行性,为利用 MIL 方法分析病理图像,尤其是 WSI 提供了新方法,加速了数字病理学的蓬勃发展。
数字病理学在 AI 加持下蓬勃发展
近年来,数字病理学的蓬勃发展引领了新一轮医学事业和生物学的进步,尤其是在对抗人类最大的敌人之一的癌症时,发挥着重要的作用。而值得一提的是,提出 HDMIL 也并不是哈尔滨工业大学团队在这一领域的初次尝试。
去年,CVPR 2024 就收录了一篇题为「Virtual Immunohistochemistry Staining for Histological Images Assisted by Weakly-supervised Learning」的研究,文章提到了一种名为 confusion-GAN 的弱监督学习方法,用于虚拟免疫组织化学 (virtual immunohistochemistr, IHC) 染色,能将 H&E 图像转换为 IHC 图像,解决了传统方法在 IHC 染色上繁琐昂贵的代价。
论文地址:https://openaccess.thecvf.com...\_Virtual\_Immunohistochemistry\_Staining\_for\_Histological\_Images\_Assisted\_by\_Weakly-supervised\_Learning\_CVPR\_2024\_paper.pdf
而这篇文章除作者与上述研究作者相同外,同样也是由江俊君教授和张永兵教授参与的,这更加证实了哈尔滨工业大学在此领域的深耕和沉淀。
当然,作为文章的两位通讯作者,江俊君教授和张永兵教授也值得着重介绍。江俊君教授目前为哈尔滨工业大学计算学部的长聘教授、博导,人工智能学院副院长,智能接口与人机交互研究中心副主任,曾入选国家级青年人才计划,也是哈工大「青年科学家工作室」的学术带头人,研究方向涉及图像处理、计算机视觉、深度学习(研究侧重大模型与图像处理、多模态自主无人系统、生成式人工智能等)等多领域。
张永兵教授为目前为哈工大计算机学院教授、博士生导师,主要研究领域涵盖了计算机视觉、生物医学图像处理以及计算机成像等。除此外,张永兵教授还身兼多职,为中国计算机学会、中国人工智能学会、 IEEE 、 SPIE 、 OSA 等多个国内外知名学会会员,在国际人工智能顶会发表论文百余篇,授权发明专利 50 余项。目前,张永兵教授的主要研究是探索人工智能与计算机视觉在生命医学和医疗健康领域的应用。
除了哈工大外,越来越多的高校和实验室也关注着数字病理学这一领域,并贡献着自己的力量。比如来自荷兰埃因霍芬理工大学的团队发表的题为「A Spatially-Aware Multiple Instance Learning Framework for Digital Pathology」的研究,其中提出了一种名为 Global ABMIL(GABMIL)的模型。该模型属于传统 ABMIL 模型的增强型,可以通过空间信息混合模块将空间信息融入嵌入向量,再用 ABMIL 网络预测切片标签,避免了传统 MIL 方法经常忽略病理诊断中很关键的一个因素——图像块间的空间交互信息。
论文地址:https://arxiv.org/abs/2504.17379
总而言之,人工智能与传统医学的融合已经是不可逆转的事情,任何人都可能萌荫于此。而不可否认的是,正是这些执着于科学前沿的「探索者」,才使得我们有机会享受人工智能和医学交叉融合后的应用。当然,凭借长期的深耕,也有理由相信哈工大团队在此继续扎根,从而加速整个领域的发展。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。