罕见病患病率低,相关专业知识匮乏,加之病症个体复杂多变,误诊和延迟诊断等现象频繁出现。近年来,GPT-4 等大语言模型 (LLMs) 在医学问答和常见病诊断方面表现优异,但在罕见病等复杂临床任务中仍面临挑战。为提升 LLMs 在医学领域的实际应用能力,一些研究人员开始探索多智能体系统 (Multi-Agent Systems , MAS) 的应用。
所谓智能体,是指为了完成某个目标,能够接收输入并执行特定操作的系统。例如,我们与 ChatGPT 交流病情时,实际上是在与单一智能体对话。相较之下,多智能体系统通过多智能体对话 (MAC) 实现更动态、交互式的诊断,该模式模拟了临床实践中的多学科团队 (MDT) 讨论机制,让多个智能体围绕同一病例展开讨论并分析,达成共识后输出病情诊断结果。
近日,四川大学华西医院、华西生物医学大数据中心、浙江大学医学院、北京邮电大学等团队,分别基于 GPT-3.5 和 GPT-4,开发了多智能体对话 (MAC) 框架。该框架由 Admin Agent 、 Supervisor Agent 和多个 Doctor Agent 组成,共同参与患者病情分析。 MAC 的最佳配置是采用 GPT-4 作为基础模型,并由 4 名 Doctor Agent 和 1 名 Supervisor Agent 组成。
评估 GPT-3.5 、 GPT-4 、 MAC 在 302 例罕见病的临床推理与医学知识生成中的表现可得,MAC 在初诊和复诊阶段均优于单一智能体模型。此外,MAC 的诊断能力超越思维链 (CoT) 提示、自我优化 (Self-Refine) 和自我一致性 (Self-Consistency) 等方法,能输出更丰富的诊断内容。例如,GPT-3.5 和 GPT-4 能基于临床表现识别心包炎和癫痫,但 MAC 通过联合对话进行更深入的分析,能够确定特定病例的心包炎是由 Bardet-Biedl 综合征引起的。
总而言之,MAC 显著提升了 LLMs 的诊断能力,弥合了理论知识与临床实践之间的鸿沟,有望成为医生的重要辅助工具。该研究以「Enhancing diagnostic capability with multi-agents conversational large language models」为题,发表于 Nature 旗下期刊 npj digital medicine 。
论文地址:
https://www.nature.com/articles/s41746-025-01550-0#Tab6
开源项目「awesome-ai4s」汇集了 200 余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s
数据集:筛选 302 种罕见疾病
本研究从 Orphanet 数据库中筛选出 302 种罕见疾病作为研究对象。 Orphanet 数据库是由欧盟委员会共同资助的综合性罕见疾病数据库,涵盖 33 种类型的超 7,000 种疾病。
302 例罕见病病例数据集下载:
https://go.hyper.ai/EETet
在确定目标疾病后,研究团队检索了 Medline 数据库中 2022 年 1 月之后发表的临床病例报告。通过对这些病例报告进行结构化数据提取,详细收集了患者人口统计学特征、临床表现、病史、体格检查结果以及各类辅助检查结果(包括基因检测、病理活检和放射学检查等),并记录了最终诊断信息。
为全面评估大型语言模型 (LLM) 在临床环境中的应用价值,研究团队设计了两阶段的临床咨询模拟实验,每个病例都被安排到初级咨询和后续咨询环境中测试:
* 第一阶段模拟初步咨询场景(初诊),主要考察 LLM 在患者初次就诊、仅具备有限临床信息情况下的表现。 LLMs 的任务是得出一个最有可能的诊断、几个可能的诊断以及进一步的诊断。
* 第二阶段模拟后续随访咨询场景(复诊),评估 LLM 在获得完整患者信息(包括各项检查结果)后的诊断能力。 LLMs 的任务是得出 1 个最有可能的诊断和几个可能的诊断。
这种分阶段的研究设计不仅能够测试 LLM 在信息不完整情况下的初步判断能力,还能系统评估其在全面掌握临床数据后的医学推理和最终诊断准确性,从而全面反映 LLM 在临床决策支持中的实际应用潜力。
临床病例诊疗 a: 初级咨询代表在初级治疗中从患者处获得的初始信息 b: 随访咨询代表在进行相关诊断测试后患者的完整信息
基于 GPT-4 、有 4 个 Doctor Agents 的 MAC 框架表现最优
研究团队利用 Autogen 提供的结构,分别基于 GPT-3.5-turbo 和 GPT-4 开发了 2 个多智能体对话框架 (Multi-Agent Conversation Framework, MAC),模拟医生会诊。如下图所示,其中 Admin Agent 提供患者信息,Supervisor Agent 负责发起并监督联合对话,3 名 Doctor Agents 共同讨论患者病情。对话将持续进行,直至 Agent 间达成一致意见或达到预设的最大对话轮次(本研究设定为 13 轮),输出最终诊断结果。
多智能体对话 (Multi-Agent Conversation Framework, MAC) 框架
Supervisor Agent 扮演着质量控制和流程优化的角色,其职责涵盖:(1)监督和评估 Doctor Agents 提出的建议与决策;(2)审查诊断方案和拟议检查项目,识别可能遗漏的关键点;(3)协调 Doctor Agents 间的讨论,促进诊断方案的完善;(4)推动 Doctor Agents 就最终诊断和检查方案达成共识;(5)在达成共识后及时终止对话流程。
Doctor Agents 的职责包括:(1)基于专业医学知识提供诊断推理和临床建议;(2)系统评估和评议其他 Agent 的意见,并提出科学合理的论点和依据;(3)整合并优化其他 Agent 的反馈意见,持续改进诊断输出。
使用来自 Medline 数据库的真实临床病例报告,研究人员评估了 GPT-3.5 、 GPT-4 和 MAC 对 302 种罕见疾病的知识和诊断能力。此外,其还研究了不同设置对 MAC 性能的影响。
例如,研究团队比较了 MAC 框架分别采用 GPT-4 和 GPT-3.5 作为基础模型时的性能差异。结果发现,使用 GPT-3.5 或 GPT-4 作为基础模型的 MAC 表现明显优于其各自的独立版本,换言之,与单智能体模型相比,MAC 的诊断能力大大增强。此外,当用作 MAC 的基础模型时,GPT-4 被证明优于 GPT-3.5,这意味着,更强大的基础模型可能会带来更好的整体性能。
基础模型和医生会诊数量对 MAC 的影响
此外,研究人员还研究了 Doctor Agents 数量对多智能体框架性能的影响,以 GPT-4 为基础模型的实验结果显示,在最可能诊断准确率方面,4 个 Agent 时达到峰值 34.11%,而 5 个 Agent 则略微下降至 31.79% 。在可能诊断的准确性方面也观察到相似规律,2 、 3 、 4 、 5 个 Agent 的准确率分别为 51.99% 、 53.31% 、 53.86% 和 50.99% 。在以 GPT-3.5 为基础模型的实验中,4 个 Doctor Agents 同样展现出最佳性能表现。不过整体而言,其中 3 个 Agent 产生的性能与 4 个 Agent 时差距不大。
进一步地,在模拟 4 名 Doctor Agents 参与的初步咨询场景中,基于 GPT-4 的 MAC 框架在多项关键指标上均取得了更优异的表现:在最可能诊断的准确性方面达到 34.11%(GPT-3.5 为 24.28%),在可能诊断的准确性达到 48.12%(GPT-3.5 为 36.64%),在进一步诊断测试的帮助度方面达到 78.26%(GPT-3.5 为 77.37%)。在随访咨询中的诊断表现, 具有 4 名 Doctor Agents 参与、基于 GPT-4 的 MAC 框架也表现最优。
初级咨询的准确性
研究人员还评估了移除 Supervisor Agent 对 MAC 整体性能的潜在影响。结果发现,移除 Supervisor Agent 时,在模拟 4 名 Doctor Agents 参与的初步咨询场景中,基于 GPT-4 的 MAC 框架在最有可能的诊断准确性、可能的诊断准确率、进一步诊断测试的帮助性方面的数据分别为 32.67% 、 45.47% 、 78.04%,均比不移除时低。在随访咨询场景中,移除 Supervisor Agent 的 MAC 框架在最有可能的诊断准确性、可能的诊断准确率也均比不移除时低。这说明,Supervisor Agent 提高了框架的有效性。
随访咨询的准确性
实验结论:MAC 可直击疾病根本原因,诊断能力更强
研究团队评估了 GPT-3.5 、 GPT-4 和 MAC 框架在罕见病知识生成方面的表现,包括疾病定义、流行病学、临床特征、病因、诊断方法、鉴别诊断、产前诊断、遗传咨询、治疗管理及预后等内容。结果表明,如下图所示,这些模型在所有评估维度上表现良好,各项指标得分均超过 4 分。此外,它们在内容准确性(不适当/不正确的内容)、信息完整性(遗漏)、安全性(可能伤害的可能性及程度)以及客观性(偏倚)等方面均展现了较高的水平。
具体疾病的特异性知识生成方面比较
在特定案例的病症诊断中,如下图所示,研究人员发现 GPT-3.5 和 GPT-4 能够基于明显症状诊断疾病,例如通过临床表现识别心包炎和癫痫,然而,它们在探究疾病的根本原因方面存在不足。相比之下,MAC 框架通过联合对话进行更深入的分析,可以确定特定病例的心包炎是由 Bardet-Biedl 综合征引起的。
代表性实例
研究人员将 MAC 与输入/输出 (I/O) 提示、思维链提示 (CoT) 、自我优化和自我一致性方法进行了比较。如下图所示,在初次和后续咨询中,MAC 在最可能的诊断、可能的诊断及进一步诊断测试的有效性方面均表现最佳。
此外,MAC 输出的 tokens 也更多,增加的输出不仅有助于探索不同的推理路径,还使反思与修正先前输出成为可能,这可以增加分析深度,提升识别被忽视疾病根本原因的能力。然而,研究亦表明,尽管增加 LLM 调用的数量并由此生成更多 tokens 可以提升 MAC 性能,但这种改进幅度受到任务类型及所采用细化方法的限制。
输出 tokens 对每种方法性能的影响
综上所述,本研究成功开发了一种用于疾病诊断的多智能体对话框架 (MAC),该框架可在临床咨询的不同阶段提供有价值的诊断建议并推荐进一步的诊断,适用于所有类型的罕见病。此外,相较于现有的思维链 (CoT) 、自我优化和自我一致性等方法,MAC 不仅具备更高的诊断准确性,还能生成更丰富、全面的诊断内容,该框架显著提升了大语言模型的临床诊断能力。
多智能体系统在医疗领域具备极大的应用潜力
近年来,多智能体系统在医疗决策与诊断领域展现出喜人的进展,多个重要框架相继出现,并采用不同策略来利用大语言模型执行临床任务。例如,上海交通大学提出针对医学领域的多学科协作框架 MedAgents,该框架让基于 LLM 的智能体在角色扮演环境中进行多轮协作讨论,显著增强了 LLM 在零样本医疗问答中的表现。研究以「MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning」为题,发表在 arXiv 上。
论文地址:
https://arxiv.org/abs/2311.10537
不同于 MedAgents 等聚焦于医疗问答,MAC 框架专注于诊断任务,促使多个智能体在相同的临床背景下进行分析、互动讨论,并提供开放式诊断建议。在智能体的架构设计上,MAC 包含多个 Doctor Agents 和一个 Supervisor Agent,而其他框架则采用不同设定,例如为问题和答案分别创建单独的 Agent 。在共识达成方式上,各框架亦有所不同。例如,MedAgents 通过迭代修订不断优化答案,直至所有专家达成一致,而 MAC 由 Supervisor Agent 判断 Doctor Agents 何时达到足够的共识。
尽管这些多智能体系统在配置与目标上各具特色,但它们在医疗领域的应用潜力巨大,未来仍需深入研究,以全面探索并优化其在临床环境中的实际作用。
上文所述多智能体对话框架的研究团队专注于生成式人工智能与临床医学交叉领域的前沿探索,拥有丰富的临床数据资源与先进的计算硬件设施,相关研究成果已在国际高水平学术期刊发表。
该团队致力于将人工智能技术落地应用,切实变革临床医疗诊疗模式与生态系统,诚挚邀请学术机构及企业开展项目合作,欢迎有志于此领域的优秀研究生报考,同时招聘富有激情的科研助理加入团队。有意向者可联系 mailto:geteff@wchscun.cn.
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。