当今,医疗资源紧张是困扰全球医疗系统的长期性问题,「医生荒」在基础保健和全科医学领域尤为突出。世界卫生组织预计,到 2030 年,全球将有 1,500 万医务工作者的缺口。而在中国,根据国家统计局和卫生健康委员会的数据,尽管中国的整体医生数量逐年增长,但一些偏远地区和乡村地区的医生数量远远不足。
分级诊疗是缓解「医生荒」的有效模式之一。在该模式之下,当患者到达医院时,如果无法判断自身的问题所在,会先由全科医生进行初步检查,判断大致的问题方向,然后再转诊到相关的专科医生处,例如心脏科、神经科等,进行进一步的诊断和治疗——这种分层和协作的模式确保了诊断的高效性、全面性和专业性,可以减少专科医生的工作负担,使其培养更具针对性,从而缩短培养周期,快速补充医生资源。
不过,医生的时间和精力毕竟有限,如何利用人工智能等先进技术提升诊断效率,从而缓解医生资源的紧张——成为业界关注的方向。受到上述医疗分层协作模式的启发,来自华威大学、克兰菲尔德大学、剑桥大学、牛津大学的研究团队提出了 KG4Diagnosis。这是一个新型的分层多智能体框架,通过双层架构模拟现实世界中的全科医生和专科医生协作的医疗系统,用于自动化医疗知识图谱的构建、诊断、治疗和推理,克服了现有医疗知识图谱构建方法在可扩展性和处理非结构化数据方面存在的局限性,涵盖了 362 种常见疾病,跨越肥胖等多个医学领域。
相关成果以「KG4Diagnosis: A Hierarchical Multi-Agent LLM Framework with Knowledge Graph Enhancement for Medical Diagnosis」为题发表于顶会 AAAI-25 Bridge Program。
MedQA 医学文本问答数据集:
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s
KG4Diagnosis 的颠覆性意义体现在哪里?
研究人员为什么要开发 KG4Diagnosis?
这其实源于一个想法,即能不能用人工智能来模拟现实世界中的分级医疗系统,从而解决医疗诊断推理的复杂性。于是, KG4Diagnosis 框架就此诞生,这是一个分层多智能体框架,集成了一个全科医生 (general practitioner) 大语言模型 (GPLLM) 和多个领域特定的专家大语言模型 (Consultant-LLMs)——通过全科医生 (GP) 智能体进行初步评估和分诊,然后与专科智能体协调,进行领域特定的分析。
该框架是如何被构建的呢?
简单来说可以分为 5 个步骤:
KG4Diagnosis 框架概览
(1) 输入的医疗文本 (Medical Text Input) 被分割处理成符合知识图谱上下文约束的数据块,并通过基于语义的实体提取 (Entity Extraction) 和关系提取 (Relation Extraction) 模块进行处理;
(2) 提取的实体和关系存储在专用数据库中;
(3) 这些数据库用于构建医学知识图谱 (Medical Knowledge Graph);
(4) 医学知识图谱与大型语言模型 (LLMs) 和多代理系统 (Multi-Agent Systems) 结合,以增强诊断推理;
(5) 诊断结果通过人工引导推理 (human-guided reasoning) 反馈给用户端点。
显而易见,这种方法结合了大语言模型的广泛能力和专门医疗知识的精确性,以实现更高级的诊断结果。据研究团队介绍,该系统的训练方法涵盖了跨多个医学专科的 362 种常见疾病,代表了医学诊断的广泛范围。
该系统的实际应用效果究竟如何呢?
下图展示了研究提出的新框架如何协作诊断过程以及 AI 系统如何帮助提供个性化的医疗建议:患者描述症状,医生提出澄清性问题,AI 提供解释和建议。
一个诊断对话示例,展示了患者、医生和 AI 医疗助手之间的互动
- 患者:「医生,我最近一直听到耳鸣,尤其是在晚上。感觉好像有持续的嗡嗡声,影响了我的睡眠和注意力。」
- 医生:「您的耳鸣是持续性的,还是时有时无?您有没有其他症状,比如头痛、听力丧失或耳痛?」
- AI:「很抱歉听到您的不适。耳鸣可能由多种因素引起,如暴露于噪音、耳部感染、高血压或压力等。您最近有做过听力测试或耳部检查吗?这些检查可以帮助确定耳鸣的严重程度和可能的原因。」
而下图则进一步显示出该系统在肥胖领域知识图谱的专业性,展示了肥胖、2 型糖尿病和心血管疾病之间的关联,它们的共同症状、治疗方法和合并症,强调了药物在解决复杂健康问题中的多面性作用。
展示肥胖领域知识图谱的专业性
总而言之,该研究通过多智能体验证和知识图谱约束,解决了大语言模型 (LLM) 在医疗诊断中面临的幻觉挑战,并通过全面的基准测试验证了这些机制的有效性。同时,研究人员还通过现实世界的医疗场景展示了该框架的实际价值,其未来应用值得期待。
技术、应用双开花!人工智能辅助诊断前景可期
医疗知识图谱研究进展
上述研究团队提出的 KG4Diagnosis 是一种基于知识图谱增强的分层多智能体大语言模型框架。所谓知识图谱 (KGs),就是用符号形式描述物理世界中的概念及其相互关系。
当前,医疗知识图谱构的建方法包括传统的基于规则的系统和先进的人工智能模型。基于规则的方法提供了可靠性但缺乏可扩展性,而像 GPT 和 MedPaLM 这样的语言模型在从非结构化数据中生成结构化知识方面展示了潜力,但它们面临着幻觉和准确性问题。
面对这些挑战,不少研究团队在多个方向进行了探索:比如,为了解决大语言模型容易出现幻觉的挑战,从知识图谱中检索相关事实被认为是一种有前途的方法。现有的 KG 增强方法往往需要多轮检索和验证每个事实,这使得它们在实际场景中的应用受到阻碍。来自帝国理工学院的研究团队提出了自我完善增强知识图谱检索 (Re-KGR) 方法,以在医疗领域用更少的检索工作增强 LLMs 响应的事实性。相关成果以「Mitigating Hallucinations in Large Language Models via Self-Refinement-Enhanced Knowledge Retrieval」为题发表于 arXiv。
同时,在利用医疗知识图谱构建医疗大模型方面,业界也取得了突破性成果。例如,基础模型 (FMs) 能从大量未标记的数据中学习,以在广泛的任务中展示卓越的性能。然而,为生物医学领域开发的 FMs 在很大程度上仍然是单模态的,为了克服这一限制,来自 UIUC 的研究团队提出了 BioBRIDGE,通过使用知识图谱来学习一个单模态 FM 与另一个单模态 FM 之间的转换,而无需对任何底层单模态 FM 进行微调。
研究结果表明,在跨模态检索任务中,BioBRIDGE 可以击败最佳基线 KG 嵌入方法(平均高出约 76.3%)。相关研究成果以「BIOBRIDGE: BRIDGING BIOMEDICAL FOUNDATION MODELS VIA KNOWLEDGE GRAPHS」为题,被 ICLR 2024 接收。
人工智能辅助诊断助力效率提升,缓解医生资源紧张
技术的进步最终都是为了反哺实际应用,减轻医生的工作强度,提升诊断的准确度和效率。通过集成大量医学知识和临床数据,近年来 AI 在辅助诊断方面已经取得许多关键进展。
就在 2024 年 11 月,AI 辅助诊断首次被列入国家医保局立项指南。即为了支持相对成熟的人工智能辅助技术进入临床应用,又防止额外增加患者负担,国家医保局分析人工智能潜在的应用场景,在放射检查、超声检查、康复类项目中设立「人工智能辅助」扩展项。某种意义上,这为未来 AI 辅助诊断的规模化应用奠定了政策基础。
具体应用方面,2024 年 2 月,华南理工团队宣布其研发出一种智能眼病筛查系统,它集成了基于数据集训练的 AI 模型和眼底照相机等系列硬件设备,能在完成眼底彩照拍摄后 15 秒内,针对 30 多种疾病给出诊断建议。
2024 年 6 月,OpenAI 在其官网博客中表示,Color Health 利用 OpenAI 的 GPT-4o 模型开发了一款 AI 助手 copilot,帮助医生筛查和治疗癌症患者,从而有更好的治疗效率。根据官方披露的数据,与未使用 AI 助手的医疗机构相比,使用了的医疗机构能够识别出多 4 倍的病理结果。此外,在使用 AI 助手后,临床医生平均只需要 5 分钟来分析患者记录,而没有使用的情况下,数据会变得支离破碎,可能导致数周的延迟。
此外,据报道,讯飞医疗通过 AI 辅助诊断,已修正 160 万次重大错误诊断,检出 6,000 万个不合理用药或疑似错误用药,提高基层诊疗能力,防止错诊漏诊。
以技术为基础,相信未来 AI 将成为医生们的「左膀右臂」,持续提高医疗服务的可及性和质量。
参考资料:
1.https://arxiv.org/abs/2412.16833
2.https://zh.wikipedia.org/wiki/%E7%9F%A5%E8%AD%98%E5%9C%96%E8%AD%9C
3.https://53ai.com/news/LargeLanguageModel/2024060240513.html
4.https://hub.baai.ac.cn/view/36889
5.https://www.yicai.com/news/102371268.html
6.https://m.yicai.com/news/102153745.html
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。