古话说,「人非圣贤,孰能无过」,但在医学领域,像误诊这样的「过」,造成的后果却可能是惨痛的。一方面对于患者而言,轻则虚惊一场,重则贻误病情,无论何种情况都会造成患者的精神、财产甚至生命遭受损失;另一方面对于医者而言,错误的判断轻则会损害医者悬壶济世的形象,重则可能进而影响到整个医疗体系的公信力。然事与愿违的是,无论是在国内还是国外,误诊事件仍然属于高频事件。
曾任《临床误诊误治》杂志主编、医学专著《误诊学》作者之一的陈晓红在一次采访中提到过,国内外文献中样本量提及的误诊率普遍在 20% 至 40% 左右。另外其著作《误诊学》中也有相关统计,如提到国内几种有代表性的医学期刊在 1973 年至 1980 年报告的 200 例临床病理讨论资料中,误诊率就高达 48 %。可以说,误诊几乎已经变成了人类医学事业前进路上的主要绊脚石之一。
为了解决误诊问题,在古代,如《医学衷中参西录》、《医家误》、《医林改错》等医学著作,都尽可能将医案中的误诊教训编入,以警示后人;到了近现代,在 B 超、CT、磁共振等现代医学手段的辅助下,临床诊断的手段日益丰富和精进。然而,医学作为一门实践科学与探索性学科,无论如何都无法百分之百地避免误诊的发生。因此,只有进一步降低误诊率,提升疾病诊断的准确性和可及性,才有可能为医学事业进一步发展扫清道路。
以 AI for Science 为新范式,为解决上述问题提供了新思路。日前,由北京邮电大学王光宇教授、北京大学第三医院宋纯理教授、三峡大学杨简教授组成的医工交叉团队,介绍并验证了当前具有最大规模参数量的生物医学大语言模型 MedFound (176B),并进一步打造了医学通才诊断大语言模型 MedFound-DX-PA,具备接近专家知识及推理能力,可提供高效的跨医疗场景准确诊断支持。
相关成果以「A generalist medical language model for disease diagnosis assistance」为题,发布于 Nature Medicine。
论文地址:
https://www.nature.com/articles/s41591-024-03416-6
开源项目「awesome-ai4s」汇集了 200 余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s
MedFound 的创新之处体现在哪些方面?
最大规模参数量的开源生物医学大语言模型
研究团队表示,缺乏设计良好的、可公开获得的、专门为现实世界临床环境定制的 LLM,是目前 LLM 在生物医学应用中仍处于初步阶段的关键。MedFound 基于通用领域的大语言模型 BLOOM-176B 预训练而来,是一个参数规模达 1760 亿的通用医学大语言模型。
为了保证模型能够获得全面的通用医学知识,研究团队特别构建了一个整合海量医学知识和临床实践的医学语料数据集 MedCorpus——由 4 个数据集中的总计 63 亿个文本标记组成,包括 MedText、PubMed Central Case Report (PMC-CR)、MIMIC-III-Note 和 MedDX-Note。这些数据集涵盖中英文医学文献、专业书籍以及 870 万份真实电子病历记录等,是该模型能够适用各学科诊断的重要基础。
值得一提的是,根据研究团队介绍,目前 MedFound 已开源,可为全球科研人员、临床医生及医疗机构提供底层基础大模型服务。
项目地址:
https://github.com/medfound/medfound?tab=readme-ov-file
创新的临床诊断推理能力使其变为「活医生」
另外,机器和人的的一个重要区别在于,人类医生能够根据自身经验和知识储备对患者的真实状况进行合理推理,从而进行区别治疗。研究团队介绍,目前部分研究只是将临床知识融入 LLM 以用于医疗问答或对话,而并没体现临床诊断推理方面的能力。
比如,sainan Zhang 和 Jisung Song 曾在 Nature 上发表的一项成果,基于 GPT-2 进行迁移学习和微调后开发了一款对话界面,命名为 Chat Ella,该系统可以根据用户描的症状对慢性疾病进行精准预测。不过在论文的最后研究者也提到该研究的不足,其中指向了该成果在推理过程中的一些局限性,比如推理过程无法解释等。这篇论文题为「A chatbot based question and answer system for the auxiliary diagnosis of chronic diseases based on large language model」。
论文地址:
https://www.nature.com/articles/s41598-024-67429-4
因此,要想实现严谨的疾病诊断,大模型仅具备广泛的跨学科医学知识是不够的,还需要能够进行复杂推理。研究团队基于 MedFound 模型,通过两阶段训练优化,进一步打造出具备接近专家知识及推理能力的医学通才诊断大语言模型 MedFound-DX。如下图所示:
MedFound 预训练过程,以及微调和偏好对齐流程
具体来说,研究团队首先在第一阶段通过基于自引导策略的思维链方法 (Chain of Thought, CoT),使大模型具备了像医学专家一样自动生成诊断依据和推理过程的能力。然而,生成式 LLM 可能会产生「幻觉」或者编造虚假事实,这些诊断如果被采纳,则后果不堪设想。
因此在第二阶段,研究团队还引入了统一的偏好对齐 (Preference Alignment) 框架,将 LLM 和专业领域的知识体系以及临床诊断偏好对齐,以确保模型能够在诊断时不仅科学合理,同时符合临床实践中医学专家的逻辑和价值观。该框架集成了「诊断层次偏好」和「帮助性偏好」,均采用直接偏好优化算法 (Direct Preference Optimization, DPO)——一种无需强化学习的简单算法,一方面可以引导模型提升疾病识别的细粒度准确性,另一方面也可以提高模型推理的有效性和可信性,降低误导风险和有误信息。
值得一提的是,在本部分的微调和对齐中,研究团队同样专门构建了一个名为 MedDX-FT 的数据集,包含了由医生根据真实病历手动编写推理过程演示,以便用于训练微调。该数据集涵盖基于手工演示的种子集和 109,364 份 EHR 笔记。
惊人的演示成绩展示其潜在应用能力
评估阶段,研究团队同样构建了一个数据集 MedDX-Bench,包含 3 个临床数据集——MedDX-Test、MedDX-OOD 和 MedDX-Rare。
- MedDX-Test 数据集用于评估 MedFound-DX-PA 在各领域的诊断表现,包含 11,662 份与训练数据集相同分布的医疗记录。
- MedDX-OOD 与 MedDX-Rare 为外部验证集,前者包含 23,917 份常见疾病记录,后者包含 2,105 种罕见疾病的 20,257 份记录,这些罕见疾病呈长尾分布。
评价实验主要为 3 个阶段,即分布内 (ID) 评估、分布外 (OOD) 评估和长尾疾病分布评估,对比对象包括了 MEDITRON - 70B、Clinical Camel - 70B、Llama 3 - 70B 和 GPT-4o 等开源及闭源的领先 LLM。
结果显示其性能均优于其他领先的 LLM,如在常见疾病诊断性能中,MedFound-DX-PA 的平均 Top-3 准确率为 84.2% (在 ID 设置下),相比之下, GPT-4o 的诊断准确率仅为 62% ;在罕见疾病诊断性能中,MedFound-DX-PA 在 8 个专业中的平均 Top-3 准确率为 80.7%,GPT-4o 排在第二,平均为 59.1%。
而值得一提的是,MedFound-DX-PA 在与内分泌学和肺科医生的对比中,诊断准确率分别为 74.7% 和 72.6%,能力超低年资和中年资的医生,与高年资医生相当。在辅助诊断方面,可以分别帮助这两个科室的医生提高 11.9% 和 4.4% 的诊断精度。下图为直观的模型诊断案例。
如下图所示,医生初步诊断为急性支气管炎,MedFound 模型突出了患者反复支气管炎的病史,在模型提示下,医生将诊断结果修正为慢性支气管炎急性加重。
如下图所示,医生初步诊断为亚临床甲状腺功能减退,MedFound 模型提示可能存在潜在的自身免疫性甲状腺疾病,医生经提示将结果修正为自身免疫性甲状腺炎。
由此可见,MedFound 不仅可以具有提升诊断效率和精确度的潜力,同时也具备成为临床工作者诊断帮手的潜力,这对于未来开展智慧化临床诊疗和个性化医疗提供了有力支持。
AI4S 不断发力,落地为王的时代已经到来
王光宇团队步履不停
在本次合作成果中,每个团队都竭尽所能,利用自己所擅长之事为这篇成果注入心血。其中值得一提的是,北京邮电大学的王光宇教授为本次研究的通讯作者之一。
而事实上,这并非王光宇教授团队首次将 AI 与生物医学进行融合。作为科学探索奖的首位 90 后得主,王光宇早已名声在外,并发布了一系列国际前沿水平的学术成果,国际顶尖学术期刊如 Cell、Nature Medicine、Nature Biomedical Engineering 等均有收录其作品。
比如在 2020 年,王光宇教授作为第一通讯作者就在国际顶刊 Cell 上发表了题为「Clinically Applicable AI System for Accurate Diagnosis and Prognosis of COVID-19 Pneumonia Using Computed Tomography」的研究,聚焦当时肆虐的新冠肺炎,采用总计 53 万多张 CT 影像,构建了一套基于病灶分割的 AI 诊断模型,诊断准确率高达 92.49%。
论文地址:
https://www.cell.com/pb-assets/products/coronavirus/CELL_CELL-D-20-00656.pdf
2023 年,王光宇团队再次先后于 Nature Medicine 发布了 2 篇研究论文,一篇题为「Deep-learning-enabled protein–protein interaction analysis for prediction of SARS-CoV-2 infectivity and variant evolution」,提出了一种被称为 UniBild 的人工智能框架,能够有效且可扩展地预测 SARS-CoV-2 刺突蛋白变体对人类的影响。
论文地址:
https://www.nature.com/articles/s41591-023-02483-5
另一篇题为「Optimized glycemic control of type 2 diabetes with reinforcement learning: a proof-of-concept trial」,提出了一个基于模型的强化学习框架 RL-DITR,包括一个跟踪个体血糖状态的患者模型和一个用于长期护理多步骤计划的政策模型,可帮助医生和患者指定动态、灵活的胰岛素治疗方案。
论文地址:
https://www.nature.com/articles/s41591-023-02552-9
正如王光宇所说过,「对此我们有所期待,就自己来说,我希望做更强大的 AI 方法,并藉由它去解决很多重要的生物医学的问题,比如攻克突发的流行病或者是癌症」。
AI 与生物医学的融合进展加速
事实上 AI 与生物医学的融合早已成为各大实验室眼中的重点,因为医学领域的特殊性,让 AI 有更多的机遇可以在此领域发挥,也让更多团队愿意在这一方面进行深耕。
比如在 2024 年,来自香港中文大学的团队同样基于 LLM 开发了一种多轮咨询的虚拟医生系统,名为 DrHouse,它可以借助智能设备提升诊断的准确性和可靠性,同时通过不断更新的医学知识库和先进的诊断算法,具有超长期的职业寿命,提供智能化、可信的医疗评估。相关论文题为「DrHouse: An LLM-empowered Diagnostic Reasoning System through Harnessing Outcomes from Sensor Data and Expert Knowledge」。
论文地址:
https://arxiv.org/abs/2405.12541
除此外,来自上海交通大学的王延峰与谢伟迪团队也在 2024 年发布相关成果,研究提到团队构建了一个包含大约 255 亿 tokens、覆盖 6 种主要语言的多语言医学语料库——MMedC,同时还提出了一个多语言医学多项选择问题基准——MMedBench。研究团队的最终模型 MMed-Llama 3 仅有 80亿参数,但在 MMedBench 和英语基准上的水准却可以和 GPT -4媲美。
*点击查看详细报道:医疗领域基准测试超越Llama 3、接近GPT-4,上海交大团队发布多语言医学大模型,覆盖6国语言
可以看到的是,AI 与生物医学融合的风暴已经愈演愈烈,AI 凭借强大的计算能力、新颖的算法和以及更容易汲取到海量数据的能力,正让传统科学研究变得更加高效和智能,而更让人期待的是,这些逐步推进的成果,也终将让应用落地来的更快,一个落地为王的时代似乎已悄然到来。
参考文献:
1.https://mp.weixin.qq.com/s/9mhp6luTzQeNhqpEKw9CWQ
2.https://mp.weixin.qq.com/s/WlamJ7N9YKrOJljvEvE9cA
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。