Deep learning for digital pathology image analysis: A comprehensive tutorial with selected use cases

Deep learning for digital pathology image analysis: A comprehensive tutorial with selected use cases
Andrew Janowczyk, Anant Madabhushi

5 USE CASES

本文共考察了7个数字病理学的实例,具体见表1。
图片描述

5.6 Lymphocyte Detection Use Case

Challenge
淋巴细胞是白细胞的一个亚种,在免疫系统中很重要。患病或有异物的区域淋巴细胞数量会极大增加,所以通过确认和定量淋巴细胞的密度和位置有助于评估疾病。
淋巴细胞在吸收了着色剂后呈淡蓝色,在色调上与细胞核相近,所以在某些情况下难以区分。但是淋巴细胞一般要更小,分布更密集,形状也偏圆形。本节目标是确定淋巴细胞的中心,是一个检测任务。
Patch selection technique
放大倍率40的图像中淋巴细胞约10x10像素,远小于32x32的出入尺寸,这样样本中90%都是无效区域,会影响模型性能,所以将图像再放大4倍,使淋巴细胞几乎占满输入图像。
选取以淋巴细胞中心位置3x3的邻域为中心的区域为正样本区域;负样本的选取如下:(a)随机选取1000个像素点,训练一个朴素贝叶斯分类器,计算该图像所有像素点的后验概率(b)计算所有假阳性像素点和距离它最近的真实正样本像素点的距离(c)选择距离最大的部分像素点为中心的区域为负样本。正样本的数量较少,加入额外的旋转样本来扩充训练集。
测试阶段,计算测试图像中所有像素点的后验概率,然后使用环状核(disk kernel)卷积操作筛选出概率最大的区域,选取概率最高的点为中心点,并去除周边对中心点的预测位置,一般淋巴细胞的尺寸基本一致,这样可以避免在同一个淋巴细胞中预测多个中心点。
Results and Discussion
5折交叉验证集,每折包含约80张训练图像和21张测试图像,正负样本数量比例1:1,包含一些旋转处理(180、270)的正样本,共700k个训练图像块。使用其中的1折来确定各种参数(如清除的半径、卷积操作的尺寸、阈值等),然后应用于其他折数据上。最终结果为平均F-score=0.90±0.01,平均TPR=0.93±0.01,PPV=0.87±0.02,图8显示了该方法可以检测大部分的淋巴细胞,但位于边界的细胞无法检测。
图片描述

5.7 Mitosis Detection Use Case

Challenge
每个高倍视野中有丝分裂的数量对于乳腺癌等级非常重要。一般来说,癌症越具有侵略性则细胞分裂更快,可以通过统计组织切片中的有丝分裂来进行估计。当前的定级策略分三级,在每10个高倍视野中发现(i)小于7个有丝分裂(ii)8-14个(iii)大于等于15个。
在实际中病理学家是通过改变光学显微镜的焦距来观察有丝分裂的三维结构,这样可以排除假阳性的判断,所以在二维数字病理图像上对有丝分裂进行准确判定是很有挑战性的。
Patch selection technique
调整放大倍数,确保一个图像块中就包含完整的有丝分裂图像,这样可以提供足够的环境信息。这对后期或末期的有丝分裂尤为重要,另外基准点的坐标实际是位于两个新细胞的中间位置。
选取以基准点邻域4x4为中心的区域作为正样本图像块,并增加多角度旋转操作(0、45、90、135、180、215、270)来扩充正样本规模。blue-ratio分割方法可以突出有丝分裂区域(如图9a),在此基础上使用膨胀操作(如图9b),在这些区域中选取负样本,可以去除不重要的样本。选取比正样本多2.5倍的负样本并旋转(0、90、190、270)度,这样可以包含更多不同的区块。
先构建一个如文献[8]中的模型,使用朴素贝叶斯计算训练集中样本的概率掩码,然后新建一个模型,过采样第一个模型判断的假阳性样本为训练集,这样就可以更多的聚焦于分类更困难的样本。特别的,对于基准点会增加15度间隔的旋转正样本。对于负类只考虑它们位于blue ratio生成的掩码中的概率,并按照它们的权重进行采样,这样可以得到那些被错误的判定为有丝分裂的负样本。这个方法最终得到约600k图像块用于第一阶段的训练,4百万图像块用于第二阶段的训练。为了最终定位细胞有丝分裂,使用环形核卷积操作并设定阈值来判定。
图片描述

Results and Discussion
数据分5折,使用第一阶段模型平均F-score=0.37±0.2,加上第二阶段模型后平均F-score=0.54±0.1,说明使用连续的网络可以极大提高性能,其中第二个模型的训练集是第一个模型预测的假阳性样本。本文的结果只比最佳的文献[8]稍低,但是[8]是在放大倍率40图像块101x101上进行,要比本文有更强的分类能力。当使用交叉验证时不同折的阈值变换很大,那么评估训练模型时需要一个独立的验证集。常见的假阳性和真实正例见图10。
图片描述

5.8 Lymphoma Subtype Classification Use Case

Challenge
淋巴瘤的三个子类型:chronic lymphocytic leukemia (CLL)、follicular lymphoma (FL)、mantle cell lymphoma (MCL)。该数据集可反映真实状况,包含了不同位置并由不同病理学家预处理的样本,额外选取了一些样本使得样本集中着色差异更大,样本示例见图11。
图片描述

Patch selection technique
生成训练集时,先将图像拆解为36x36的图像块,然后利用Caffe在训练时随机剪切32x32。在测试阶段使用相同的方法,并使用投票的方法决定最终结果,得到最高票的类别就是整张图像的预测类别。
Results and Discussion
5折交叉验证集,每折包含约300张训练图像和75张测试图像,共825k个训练图像块。平均准确率96.58%±0.01%,这比wnd-chrm软件提高了10%,这两个方法使用了相同的数据集,并且都没有参考专业领域知识。
误分类的情况一般都是因为图像质量差,如图12所示,这张图像预测投票CLL814票,FL562票,MCL0票,这也显示了最终判断的不确定性。正常的正确分类预测结果相差会很大,例如{5,1357,14},这说明如果投票不呈现一家独大的情况时应该人工确认。
图片描述

6 DISCUSSION

从本文的实验中可以看出以下几点:
(一)dropout在这些实验中并没有性能提升,可能是因为使用的数据集规模都比较大,有足够的样本避免了过拟合;
(二)最重要的就是对于不同的任务选择合适的放大倍率,一般的原则就是保证病理学家可以在剪切的图像块中有足够的环境信息来做出正确的判断;
(三)本文主要工作就是探索简单但鲁棒的方法来确定选取具有挑战性的训练样本,这些样本包含更多信息。随机选取的样本中有很多不重要的,并不能提升网络的学习能力。另一个技术就是使用连续两个分类阶段来确定重要样本,过采样第一阶段的假阳/阴性样本用于训练第二阶段的分类器。
(四)深度学习由数据驱动,一般人工标注并不会精细到像素级,如果提高标记信息的精度则可以提升网络性能,人工标注与DL预测的差异见图5。可以先使用DL产生高质量的基准标注,然后领域专家在此基础上进行修正。
(五)医疗领域的数据集复杂度很高,所以衡量模型性能应该针对同一数据集。

7 CONCLUSION

本文展示了使用深度学习算法处理数字病理学中多种图像分析任务,提出一些网络架构、数据处理等指导意见,并在七个实例中进行分析。
本文指南也存在一些限制。平均同一个图像块不同旋转角度的预测可以减小输出结果的方差。融合多个网络(如不同架构、不同初始化等)可提高性能。
本文的方法没有参考领域相关的先验知识,但是同时使用领域相关设计的特征和深度学习算法应该可以提升模型性能。
计算效率也是需要考虑的问题。另外blue-ratio分割和color deconvolution可以作为深度学习处理数字病理学图像的预处理方法。
本文所使用的方法并不是最优的,可以根据实际任务调整各种设置。

注:对于文中医学相关的名词翻译可能不准确,如有异议请指正。


binlearning
23 声望45 粉丝

深度学习/机器学习/计算机视觉