相信很多喜爱漫威电影的朋友都曾被这一幕所惊艳,在电影「钢铁侠 2」中,人工智能管家贾维斯通过采集斯塔克的血液样本,利用深度学习算法迅速将样本数据进行模块化,精准而快速地分析出斯塔克体内的钯金属含量,出具报告的同时甚至还能给出跨领域建议,如「现有元素无法替代钯金属,需要合成新元素」。尽管这只是短短几十秒的镜头,却将智慧医疗的自动化、智慧化、流程化等特征完美展现了出来。
然而在现实生活中,要想实现同样的结果,期间医务人员则需经历采血验血、图像分析、数据对比、出具报告以及疾病分类等繁杂的流程。而这也仅是从宏观角度来看,如果细分则更甚。以临床诊断中最常见的医学影像来说,医学影像可以描述临床发现,并为进一步诊断疾病提供依据。但当涉及用自然语言准确、简洁、完整、连贯地描述一份关于医学影像的报告时,却会让很多医务人员感到头疼和乏味。有数据显示,即便是经验丰富的医生,完成一份报告通常也需要平均 5 分钟甚至更长时间。
幸运的是,科幻虽然还未完全照进现实,但却已是透过黑暗的缝隙露出了一丝微光。在人工智能与医疗健康组成的交叉领域,越来越多的科研人员进行了大量研究,开发自动报告生成的方法,这些方法通过自动生成报告初稿,供医务人员审查、修改和参考,一方面可有效解决医务人员耗时耗力的工作任务,另一方面又能通过自动化降低人为错误发生的概率。
近期,国际知名学术期刊 Nature Portfolio 旗下 npj Digital Medicine 刊登了一篇题为「A multimodal multidomain multilingual medical foundation model for zero shot clinical diagnosis」的研究,其中提到了一款多模态(图像和文本)多领域(CT 和 CXR)多语言(中文和英文)医学基础模型 M³FM (Multimodal Multidomain Multilingual Foundation Model),可用于零样本临床诊断,支持疾病报告和疾病分类。科研人员展示了此方法在 2 种传染性和 14 种非传染性疾病的 9 个基准数据集上的有效性,皆优于此前方法。
该研究的作者阵容豪华,除牛津大学、罗切斯特大学、亚马逊等单位的团队外,还包括了来自西湖大学医学人工智能实验室的郑冶枫博士和腾讯优图实验室天衍研究中心负责人吴贤博士。
论文地址:
https://www.nature.com/articles/s41746-024-01339-7
开源项目「awesome-ai4s」汇集了 200 余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s
数据缺失仍是现有方法难解之痛
医学影像是医学影像报告及疾病分类的基础,对于后续的临床诊断具有重要帮助作用,因此相关的自动化方法的研究自然而然成为科研领域研究的重点之一。不过研究成果尽管颇丰,但从实践的角度仍有诸多不足,其中数据稀缺甚至完全缺失可谓关键挑战。
一方面,疾病报告的生成类似于基于图像的语言生成任务,其目的是生成描述性文本来对输入图像进行描述。传统的基础方法通常严重依赖临床医生注释的大量高质量医学训练数据,而收集这些数据则需要付出高昂的代价和很长的时间,尤其是针对罕见病和非英语语言的情况。
具体来说,如针对新病或罕见病——这些疾病通常在早期阶段缺乏足够的有效数据进行训练,比如 2019 年底开始在全球肆虐的新冠肺炎,初期能够收集到的数据有限,这导致系统训练的时间远超疫情前几波的持续时间。另据「2024 中国罕见病行业趋势观察报告」显示,全球目前已知的罕见病已超过 7,000 种,保守的循证数据估计,罕见病在人群中的患病率约为 3.5% 至 5.9%,全球受罕见病影响的人数大概为 2.6 至 4.5 亿。如此庞大却非典型的疾病无疑也让上述问题更具挑战。
此外,全球医疗保健系统涉及不同区域、不同人群和不同语言,对于英语以外的语言来说,其相关标记的数据通常非常稀缺甚至完全缺失,因此标记数据的有限性对使用现有方法的非英语语言训练系统无疑构成了重大挑战。同时,这也使得现有方法在处理不常见的语言时变得更加艰巨,进一步影响了 AI 公平的目标,无法充分惠及代表性不足的群体。
另一方面,为了有效地进行疾病分类,目前先进模型多受 CLIP 成功的启发,如 BioViL 、 REFERS 、 MedKLIP 以及 MRM 等,都是为了更好地理解医疗多模态数据而开发。在实施过程中,这些方法利用对比学习,使用医疗数据对 CLIP 模型进行预训练,但由于大多数模型都是特定于 chest X-ray(CXR)的,因此它们通常无法在单个框架内处理多领域、多语言的医学图像和文本。同时,此前的工作也无法对语言和图像的不同领域进行零样本疾病报告。
* CLIP 模型是 OpenAI 开发的对比语言-图像预训练模型——一种从自然语言监督中学习的有效方法。 CLIP 主要通过对比学习来学习图像和文本之间的关联,在大规模图像 – 文本对上进行预训练,从而使模型能够理解和关联不同模态的信息。
在此背景下,开发一种能够在少样本或零样本情况下进行多模态、多领域、多语言临床诊断的模型迫在眉睫。本次研究提出具体创新如下:
* 所提 M³FM 首次尝试进行零样本多模态多领域多语言临床诊断,其中用于训练的标记数据稀缺甚至完全缺失;
* M³FM 在 9 个数据集上验证了其有效性,包括医学成像数据的两个领域,即 CXR 和 CT;两种不同的语言,即中文和英文;两种临床诊断任务,即疾病报告和疾病分类;多种疾病,包括 2 种传染性和 14 种非传染性疾病。
M³FM:两大模块组成,多项数据集验证
本研究中,所提 M³FM 的关键思想是在跨模态、领域和语言的公共医疗数据上预训练模型, 以便学习广泛的知识,然后利用这些知识在无需标注数据的情况下来完成下游任务。 M³FM 框架的主要组成部分包括 2 个主要模块,即 MultiMedCLIP 和 MultiMedLM 。如下图所示:
M³FM 框架结构图
其过程是 MultiMedCLIP 在一个共享的公共潜在空间中对齐和桥接不同的语言和图像,然后 MultiMedLM 根据共享潜在空间中的文本表示重构文本,最后 M³FM 直接基于统一潜在空间中来自不同领域的输入图像的视觉表示生成多语言报告。
具体来说,MultiMedCLIP 是用于学习联合表示的模块,引入了多域视觉编码器和多语言文本编码器,目标在于创建一个共享的潜在空间,用于对齐来自不同医学影像领域以及不同语言的视觉和文本表示。受到对比学习方法的启发,研究人员采用了 InfoNCE (Info Noise Contrastive Estimation) 损失和 MSE (mean square error) 损失作为训练目标,用于最大化正样本对和最小化负样本对之间的相似性,以此实现在不同领域的视觉表示和不同语言的文本表示上的对齐,为下游零样本推理打下坚实基础。
MultiMedLM 是用于生成多语种报告的模块,引入了多语言文本解码器,旨在基于 MultiMedCLIP 提取的表示,学习生成最终的医学报告。该部分通过重建输入文本的方式进行训练,可以是中文文本和英文文本,采用自然语言生成损失——XE (cross-entropy) 损失作为训练目标。值得一提的是引入重建训练可以看做是无监督训练,只需要无标记的纯文本数据进行训练,因此在下游任务上也无需进行任务标注数据的训练。另外,为了保障 MultiMedLM 训练稳定,研究团队进一步引入了随机失活 (dropout) 和高斯噪声。
实验过程采用了 AdamW 优化器,设置学习率为 1e-4,批量大小为 32 。实验在 PyTorch 和 V100 GPU 上进行,使用混合精度训练进行实验。
在数据集方面,预训练是在 MIMC-CXR 和 COVID-19-CT-CXR 数据集上进行的,其中 MIMC-CXR 由 377,110 张 CXR 图像和 227,835 份英语放射学报告组成,为迄今为止发布最大的数据集;COVID-19-CT-CXR 包括 1 k 张 CT/CXR 图像及相应的英文报告。并且,研究人员在两个数据集上提取一半的英语语料库,使用 Google 翻译器构建中-英训练队,结果显示此方法可以改善机器翻译文本的结果。
在评估阶段,使用的数据集包括 IU-Xray 、 COVID-19 CT 、 COV-CTR 、深圳结核病数据集、 COVID-CXR 、 NIH ChestX-ray 、 CheXpert 、 RSNA 肺炎和 SIIM-ACR 肺气肿等,实现了模型性能全面评估。
* IU-Xray:包括 7,470 张 CXR 图像,以及 3,955 份英文放射学报告。该数据集被随机分为 80% – 10% – 10% 进行训练、验证和测试。
* COVID-19 CT:包含 1,104 张 CT 图像,以及 368 份中文影像学报告。同样该数据集被随机分为 80% – 10% – 10% 进行训练、验证和测试。
* COV-CTR:包含 726 张 COVID-19 CT 图像,与中英文报告相关联。
* 深圳结核病数据集:包含 662 张 CXR 图像,训练、验证及测试集被拆分为 7:1:2 。
* COVID-CXR:包含超 900 张 CXR 图像,数据集被随机分为 80% – 10% – 10% 进行训练、验证和测试。
* NIH ChestX-ray:包含 112,120 张 CXR 图像,每张图像都标记了 14 种常见放射病的发生情况,训练、验证及测试集为 7:1:2 。
* CheXpert:包含超 220,000 张 CXR 诊断图像。预处理后,在训练集中得到 218,414 张图像,验证集中得到 5,000 张图像,测试集中得到 234 张图像。
* RSNA 肺炎:由约 30k 张放射学图像组成,训练、验证和测试集比例为 85% – 5% – 10% 。
* SIIM-ACR 肺气肿:包括 12,047 张 CXR 图像,训练、验证和测试集比例为 70% – 15% – 15% 。
实验表明了 M³FM 的优越性能,超过以往先进方法,如下图所示。如在疾病报告结果中显示,在零样本设置下,以往方法都无法处理疾病报告任务,而 M³FM 能够在单个框架中同时执行多语言、多领域疾病报告。在少样本设置下,使用 10% 的下游标记数据进行训练时,M³FM 取得了最好结果,甚至比全监督方法的 R2Gen 在 CT – to – Chinese 报告生成方面的表现高出 1.5% 的 CIDEr 和 1.2% 的 ROUGE-L 分数。这表明了 M³FM 即便在标记数据稀缺的情况下也能生成准确有效的多语言报告,因此针对罕见病或新病将特别有用。
疾病报告结果对比
另外,研究人员还邀请了两名临床医生对模型进行评估,结果如下图所示。在无任何标注数据训练时,M³FM 就能生成理想的多语言多领域报告;当仅使用 10% 标注数据训练时,M³FM 在 CXR – to – English 、 CT – to – Chinese 和 CT – to – English 任务上就能比全监督方法的 R2Gen 分别高出 6% 、 8% 和 8%;当使用完整训练数据时,M³FM 在三个任务上可以比 R2Gen 提升超 20%,比 XProNet 分别提升 12% 、 10% 和 8% 。这表明了 M³FM 有着将临床医生从耗时耗力的报告编写任务中解放出来的潜力。
临床医生评估
在疾病分类方面,M³FM 在传染病诊断上显示了优越性,在深圳结核病数据集和 COVID – CXR 数据集上,当使用 10% 的训练数据时,M³FM 的 AUC 得分分别比现有最佳结果高出 5.1% 和 3.9% 。当完整使用训练数据时,M³FM 在两种传染病中取得了最好结果;在非传染性疾病方面,数据集来自 NIH ChestX-ray,M³FM 在仅 1% 的训练标签情况下与全监督方法 Model Genesis 取得了相当的结果;在 10% 时,M³FM 在多个疾病的诊断上优于基线方法 MRM 和 REFERS,这也证实了 M³FM 在疾病诊断方面的有效性和泛化能力。
传染病疾病分类结果对比
AI 引领智慧医疗,郑冶枫团队一马当先
此前,不少实验室已经将重点聚焦于此,其所提模型各有侧重,也各有千秋。
比如针对自动生成报告,大连海事大学信息科学技术学院发表在医学和生物图像分析领域专业论坛 Medical Image Analysis 上一篇题为「DACG:Dual Attention and Context Guidance model for radiology report generation」的研究,其中针对自动生成放射学报告提出了一种双重注意力与上下文引导 (DACG) 模型,能够缓解视觉和文本数据偏差,促进长文本的生成。
论文地址:
https://www.sciencedirect.com/science/article/abs/pii/S1361841524003025
还有针对多语言设计的模型,如上海交通大学王延峰教授与谢伟迪教授团队创建了一个包含 255 亿 tokens 的多语言医疗语料库 MMedC,开发了一个覆盖 6 种语言的多语言医疗问答评测标准 MMedBench,同时还构建了一个 8B 的基座模型 MMed-Llama 3,在多项基准测试中超越了现有的开源模型,更加适配医疗应用场景。相关研究成果以「Towards building multilingual language model for medicine」为题,发表于 Nature Communications 。
点击查看详细报道:医疗领域基准测试超越 Llama 3 、接近 GPT-4,上海交大团队发布多语言医学大模型,覆盖 6 国语言
相比而言,M³FM 在多模态、多领域、多语言等多方面出色的表现,无疑会给人工智能和医疗健康交叉的领域带来新的活力。当然,提到本次研究也就不得不提到本文作者之一的郑冶枫博士。
事实上,这篇论文可以说是新鲜出炉的成果,同时也能看做是郑冶枫博士全新开始的标志。 2024 年 7 月 29 日,IEEE Fellow 、 AIMBE Fellow 、医学人工智能科学家郑冶枫全职加入西湖大学,受聘工学院教授,并创立了医学人工智能实验室。该实验室的研究方向包括医学影像分析、医学自然语言理解、生物信息分析 (Bioinformatics) 等。这篇文章正是该研究室首创之年的重要成果之一。
除了这篇成果之外,面向医疗健康领域,实验室还发布了多篇论文,比如题为「Unlocking the Potential of Weakly Labeled Data: A Co-Evolutionary Learning Framework for Abnormality Detection and Report Generation」的研究,其中介绍了一个协同异常检测和报告生成 (CoE-DG) 框架,利用完全标记与弱标记数据,可以促进 CXR 异常检测和报告生成两个任务互相发展。该篇研究发表于 IEEE Transactions on Medical Imaging 。
当然,实验室还有针对当下如日中天的大语言模型的研究成果,如题为「Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding」的研究,发表于 EMNLP 2024 。该篇论文针对 LLMs 在医疗场景中易发生「幻觉」的现象给出解决方案,提出了一种「交替对比解码」(Alternate Contrastive Decoding,ALCD),该方法通过将模型的识别和分类能力分离出来,并在预测过程中动态调整两者的权重,可以显著减少错误的发生。该项技术在多个医学任务中表现出色。
如今,这些成果或尚在实验室,或有落地的势头,但总归 AI 将会驱动着医疗保健领域走向智慧化、智能化、自动化等道路。正如郑冶枫博士所说过,「医学人工智能,是一个快速发展的领域,我估计 10-15 年人工智能将具备医生诊疗的正确率,能够得到大量应用。」
参考资料:
1.https://www.nature.com/articles/s41746-024-01339-7
2.https://mp.weixin.qq.com/s/pMNXAvzgGRpPwqVtCWjXbA
3.https://mp.weixin.qq.com/s/6hw6EJY6slAIRbGGN9XY9g
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。