2012 年,在传说中的「末日之年」,移动互联网迎来了爆发期。随着 3G 网络的普及、智能手机价格下探,加之微信、米聊为代表的类通信应用以及电商、支付类的迅速崛起,该领域实现了新一轮增长。作为各类创新应用的基础,通信产业发展前景一片向好。
「我当时的理解是:通信技术成熟度已经很高,中国在技术上也走在了世界前列,各国间主要的争议更多的是通信协议问题,这已经超出了技术范畴」,彼时的谢伟迪在北京邮电大学完成了 4 年的本科学业,站在人生的分岔路口,他坦言「并不是十分喜欢这个专业,当然也有可能,是没学明白」。
随即,他选择了出国深造并转换赛道,先后在英国伦敦大学学院 (UCL) 与牛津大学 (University of Oxford),完成了计算机视觉领域的硕士及博士、博士后的学习与工作,并于 2022 年归国加入上海交通大学,将其在计算机视觉领域的积累带入医疗人工智能,尝试开辟新的战场。
可以说,谢伟迪教授从通信向计算机视觉,以及从计算机视觉向医疗人工智能的两次转身,亦是两个重要节点,抉择上的犹豫、攻坚新领域的挑战、成果面世后的成就感,皆是其履历上的闪光点。
近日,HyperAI超神经有幸与谢伟迪教授进行了一次深度访谈,从其个人经历出发,他向我们分享了从计算机视觉转型 AI for Healthcare 的经验心得,同时深入剖析了该行业的发展趋势。
通用医疗 AI 系统可以产生「智能涌现」
「很多人不理解我为什么要做通用医疗人工智能系统,明明特定的疾病诊疗模型具备更高的实用性」。在大模型赋能各行各业的今日,专用和通用一直是业内讨论的重点。专用模型能够在特定领域表现出更高的精确度和实用性,但泛化能力有限。通用模型的广泛知识面可以联通不同领域,但在特定领域的能力往往比不上专有模型。
在谢伟迪看来,专用模型和通用模型均有自己的优劣,「但开发通用医疗 AI 系统是我们必须要做的事」。他认为,通用意味着模型可以建立不同模态数据之间的隐层联系,从而产生所谓的「智能涌现」,这对疾病诊断是至关重要的,尤其是成因没有很明确的疾病。举例来讲,针对肺炎 A 和肺炎 B 的分类问题,如果用图像和文本去训练,即可以在底层串联这些多模态数据,识别两种肺炎症状的相同点和不同点,达到分类目的,然而,只用图像训练,网络不一定能学到这种关系。「所以说,从 Science Discovery 的角度来看,通用模型的价值很大」。
想要构建一个多模态的通用医疗模型,就要尽可能全面的将医学知识注入其中。然而,医疗领域的数据存在伦理、安全、质量等多方面因素的影响,一般很难获取使用。为了应对这个挑战,谢伟迪选择的做法是:把计算机视觉中的数据收集方法迁移到医疗领域,即从互联网上爬数据。「当然,我们知道,这种做法训练出来的大模型无法得到临床实用,但可以更好地培养人才,锻炼团队处理大数据的能力,比如收集、整理、清洗数据」。
举例来讲,团队汇集了超 3 万本医学书籍,全面爬取了 PubMed Central 中 400 万篇医学文献,还收集了互联网上中文、英语、俄语、日语等 8 个语种的医学论文、书籍,并将它们转换为能够训练语言模型的语料。
团队构建的数据集
进一步地,对互联网上公开的图像-文本数据进行挖掘,汇聚了超过 25 万的 3D 扫描,以及百万以上的 2D 医学论文图像。此外,为了训练通用分割模型,团队还对市面上可获得的近 120 个放射学影像公开的分割数据集进行了标准化处理,含超 3 万个 2D/3D 影像和百万级的像素级标注,覆盖了常见的各种放射学影像模态,例如,MR、CT、PET。深知医疗数据集对医疗 AI 研究的关键作用,团队将获取的大部分数据集进行开源。
在构建通用模型时,团队希望将获得的所有多模态数据联合训练,包括影像、文本、基因组学、ECG 信号等,并以影像上的病灶定位、文本级的诊断与报告作为最基本的输出形式。训练过程中,医学知识的嵌入也是实现通用功能中必不可少的一环。「这是因为,医院里诸多科室的任务不同,医生往往更关注自己的部分,我们希望通用模型能够覆盖全部的检查信息,处理任务时形成一步一步的思维链,完成鉴别诊断等任务」,谢伟迪介绍道。
多模态通用 Al 医疗大模型构想
当导师「两不管」时,默默积蓄力量
如前文所述,开发通用医疗 AI 系统时,谢伟迪的做法是将计算机视觉领域的方法搬到医疗领域,这是因为,此前他曾从事计算机视觉研究近 10 年,拥有深厚的知识积累。然而,最初选择该专业,对他而言却是「阴差阳错」。
本科的时候,谢伟迪就读于北京邮电大学。「因为对通信不感兴趣,所以我的本科成绩很差,担心自己找不到工作,才选择出国留学」,他笑言。
2012 年,谢伟迪进入英国伦敦大学攻读计算机视觉方向的硕士。这一次,他找到了感兴趣的方向,并对学业异常认真,「我的导师觉得我挺适合做这方面的科研,就建议我读个博」。他那时面临的问题是,由于英国的博士奖学金极少,是否要为了继续深造而选择自费读博。「导师把我推荐到了牛津大学,这样即使需要自费,这笔投资也更有价值」。
幸运的是,2014 年,为了更好地推动 AlphaGo 项目,DeepMind 决定加大对 AI 领域的人才培养,并和牛津大学合作开设奖学金,谢伟迪正是首届 Oxford-Google DeepMind 全额奖学金的获得者。虽然 DeepMind 的近 100 万元奖学金及时解决了他的经济压力,但他真正面临的问题是,两个导师的放养态度差点让他没办法毕业。
「读博的时候,我有两位很强的导师。一位是计算机视觉领域的 Andrew Zisserman 教授,他是皇家科学院的院士,也称得上是 CV 领域的奠基人之一;另一位是研究医疗影像的 J Alison Noble 教授,他是皇家科学院和工程院的两院院士。当时他们都认为我会更多参与到对方的研究中,这导致我处在了两不管的境地」。谢伟迪当时所在的牛津大学视觉几何组 (VGG) 因开发卷积神经网络 VGGNet 而备受瞩目,组内成员普遍在国际学术界上享有极高声誉,而他不仅要面对同期伙伴均快速提升的落差感,同时还要不断挖掘新的研究课题。
受 AlphaGo 的影响,当时深度学习一度爆火,谢伟迪也对生成式模型等产生了浓厚兴趣,然而,他的导师 Andrew Zisserman 教授则更倾向做「非热点但更有价值」的研究。「开周会的时候,我的同学可以向 AZ 汇报每周的工作进度,但我往往是拿一堆 paper 进去,又拿着一堆新的、要读的 paper 出来」。与此同时,由于英国对医疗影像数据的控制非常严格,没有数据就无法开展研究,在另一位导师 J Alison Noble 那里,他也无法得到反馈。「截止毕业的前一年,我只发了一篇 Workshops 论文,我向两个导师反馈,再这样下去怕是毕不了业」。
正所谓塞翁失马,焉知非福。由于多个选题被导师否定而无法实施,空闲时间他几乎阅读了那个时代计算机视觉领域的全部论文,这种积累也为他的未来科研奠定了坚实的基础。正如他所言,「我当时觉得,只要是导师能确定了我的 topic,我几天就能做完」。
2018 年,在两位导师的支持下,谢伟迪分别在计算机视觉、医疗图像等方向发表论文 7 篇,顺利毕业。AZ 也认可了他的实力,邀请他继续攻读博士后,专门做计算机视觉方向的研究,直到 2022 年回国。
谢伟迪毕业照
知识是计算机视觉与医疗的最本质区别
家庭与工作的平衡点困扰着无数人,谢伟迪也是如此。「选择回国是一个很突然的决定,虽然已经留在牛津,也看到了助理教授 offer 的机会,但我逐渐意识到,那里的环境并不适合我继续深入研究,另一方面,作为一位新手父亲,我当时的经济和精力都不足以支持家庭」。
在笔者看来,谢伟迪身上有一种独特而鲜明的性格,除了科研看重的谦逊务实之外,更多了一份果敢。决定回国的想法一出,他立马联系国内高校,没有考虑「海外优青」之类的帽子,也没有考虑「货比三家」,只把简历投给了上海交通大学,并顺利入职。
谢伟迪在交大上课
有趣的是,上海交大的张娅老师扮演了他入职过程中的「HR」,而和张娅老师相识,源于一篇发表的期刊论文。「2018 年的时候,张娅老师和她的学生想复现我曾发表的医疗影像相关论文,就加了我的微信」。正是这个契机为他后续归国铺就了桥梁,将简历发给张娅老师后,他很快得到回复,「幸运的是,学校很快就推进了整个过程」。
入职上海交大之后,除了继续原有的计算机视觉研究,他开始深耕医疗人工智能。「我当时想尝试一下 AI for Science 的研究,因为对医疗健康接触的比较多,也感兴趣,就选了这个方向」。
值得一提的是,2022 年,恰逢 ChatGPT 出现,谢伟迪决定从语言入手,放弃当时备受追捧的医疗影像输入。「我认为医疗与计算机视觉之间最本质的区别就是知识,因为医学更多的讲究寻证,而且有着系统且规范的知识,但视觉领域的医疗影像很难将知识嵌入模型」。在他的设想中,团队可以将医学知识嵌入到语言模型中,随后将视觉模型与语言模型对齐,就能将医学知识传递给视觉模型了。
笔者认为,或许是受到 Andrew Zisserman 教授的影响,在谢伟迪的身上,我们能深刻感受到他对科研的敏锐直觉,正如他对自己导师的评价:「AZ 的很多 topic 并不追求短期热点,而是着眼于长期的价值」。比如,在开发视觉-语言模型 PMC-CLIP 时,由于很多研究都是首次进行,团队的学生并不能完全理解这个项目的意义——为什么要把互联网所有的论文爬下来?为什么要提取图像和注释来训练模型……「甚至在提交论文时,MICCAI 还差点拒稿」。
然而,过了一段时间后,视觉-语言模型突然火爆,PMC-CLIP 模型也被 MICCAI 评为「Young Scientist Publication Impact Award, Final List」,成果也被认可。「我最初也很难说服我的学生这项研究到底有什么用,可能我比较幸运,选择的 topic 恰好是后来大家感兴趣的事」。
在访谈中,谢伟迪教授多次提及「幸运」——被牛津大学录取是幸运;首批获得 Oxford-Google DeepMind 奖学金是幸运;回国后顺利入职上海交大是幸运;研究方向与技术路径的选择亦是幸运……但在笔者看来,运气大多都不是空穴来风,或许是曾经一个举动埋下的伏笔,又或许是久而久之的积累蓄力推动了当下的正确抉择。
定义问题比解决问题更重要
值得一提的是,谢伟迪曾庆幸「自己选择的 topic 恰好是后来大家感兴趣的事」。但笔者认为,研究课题的选择恰恰反应了团队带头人在该领域的独到观察,而谢伟迪将其表示为「定义问题」,在他看来,定义问题比解决问题更重要,只要一个有意义的问题被定义下来,后续会有无数的人跟进和解决。因此,我们需要思考,在当下的这个阶段,什么问题是最值得让模型去解决的?这点很重要。
进一步地,当我们解决问题时,「人才-数据-算力」更是缺一不可。
当前,AI4S 的发展尚在初期,AI 从业者在模型构建和框架优化上更占优势,Science 从业者则更擅长精准定位垂直领域的科学问题,双方也一直在探索一种普适的合作模式。在这方面,谢伟迪团队选择与上海交大医学院的很多老师和同学们进行合作,充分利用其医学领域的专业知识,让他们担任顾问角色,帮助团队判断研究方向是否具备实际的医学价值。此外,他们还充当「质检员」的角色,负责抽样数据的质量,确保数据的干净程度达到 90% 或以上。
与此同时,随着团队建设的逐步完善,学生们已熟练掌握网络数据爬取技术,下一步面临的问题是,互联网数据资源接近枯竭。在这方面,团队希望与医院合作,获取更高质量的医学数据,尝试让模型进行落地。谢伟迪强调,「知识驱动」或「数据与知识联合驱动」,比单纯的「数据驱动」更重要,因此,团队希望将医学知识置于核心位置,和队友们一起解决更有实际意义的问题。
值得一提的是,长期以来,医疗 AI 的可解释性一直是医生们的「心头大病」。对此,谢伟迪认为,如果 AI 的性能足够强大,在诊断准确性上超越顶尖医生,可解释性将不再是问题。例如,Google 推出的 Med-PaLM 2 模型在美国 USMLE 执业医师资格考试中已取得 86.5 的高分,此外,他们的团队也曾连续推出医疗大语言模型 PMC-LLaMA、MMed-LLaMA,视觉-语言模型 MedVInT、RadFM ,通用分割模型 SAT 等,多个模型被行业视为 baseline,并在 NPJ Digital Medicine、Nature Communications、ICCV、ECCV、NeurIPS、MICCAI 等知名期刊/顶会上发表,这些成果的迭代速度正在逐步改变医生对 AI 的看法,建立高质量的合作关系将未来可期。
而在算力资源、资金保障方面,上海交通大学也为团队的前期研究和未来成果转化提供了全方位支持,学院不同团队之间也在积极探讨合作机会,学术氛围浓厚。
做有价值的研究
在与谢伟迪教授的交流中,他多次提到,希望做些有价值的研究。在他看来,团队以往的研究只能算是「学术界的一个 toy 原型」,小模型想要实现最终落地必须要进一步 scale up。他希望,这些原型能够给其他研究人员甚至工业界提供参考,告诉大家需要用什么样的数据、如何处理数据、怎么构建和训练模型、以及如何设定 instruction 等。
未来,团队计划构建面向临床的 super instruction,将医生感兴趣的 100 余个任务整合训练,让模型专注于解决实际临床需求。对此,他评价:「传统语言模型多用选择题来评估,但与医生交流时会发现,他们并不关心选择题得分有多高,而是更在意模型是否能够解决实际问题,比如胜任临床任务等」。
另外,团队已经开始下沉至基因组学、DNA、RNA 和氨基酸等层面的相关研究,突破过去依赖图像和文本的局限,他们希望为罕见病诊断和新药研发等创造更多的可能性,期待他们的未来成果。
更多成果详见谢伟迪 Google Scholar:
https://scholar.google.com/citations?user=Vtrqj4gAAAAJ&hl=zh-CN
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。