头图

2019 年 12 月,新冠疫情 (COVID-19) 突然爆发,这种由 SARS-CoV-2 病毒引起的疾病具有高度传染性,仅一个月时间,我国病例涉及人数就超过了 1,000 例,并迅速蔓延至全球。

为了抵抗病毒的进一步传播,我国在 2021 年年初推出了全民免费接种疫苗政策,然而,即使在疫苗的加持下,这场健康危机也变得越来越复杂。这是因为 SARS-CoV-2 病毒通过不断变异,逐渐适应了疫苗产生的免疫压力以及变化的环境条件,最初在武汉发现的「病毒株」早已消失,取而代之的则是各种各样的变异毒株,持续引发着新一轮感染浪潮,其影响一直延续到 2023 年之后。

无独有偶,就在最近,流感病毒阳性率持续攀升,许多人不知不觉间便感染了甲型流感(简称甲流),与 SARS-CoV-2 病毒相似,甲流也具有传染性强、传播速度快、变异速度较快的特点,同一个季节内可能出现多个亚型病毒,这也增加了人群短时间内重复感染的风险。

由此可见,病毒进化方向预测对防控和疫苗药物设计至关重要。然而,突变作为病毒进化的基础,其高度随机性导致通常情况下只有极少数突变能够「恰好」增加病毒的适应性,这种正样本(有益突变)和负样本(有害突变)的不平衡问题使得训练一个能够预测病毒稀少有益突变的深度学习模型及其困难。与此同时,病毒往往仅有少数位点会发生突变,这让神经网络难以直接捕获突变引起的微弱分子内相互作用变化,也对建模造成了困扰。

对此,北京大学信息工程学院田永鸿教授、陈杰副教授,联合广州国家实验室周鹏研究员指导博士生聂志伟、硕士生刘旭东等,重新审视病毒进化的预测难题,提出了一种进化驱动的病毒变异驱动力预测框架 E2VD,该框架可以对 SARS-CoV-2 病毒、Influenza(流感病毒)、Zika(寨卡病毒)和 HIV(艾滋病病毒)的进化方向进行预测,显著提升了人类对新发病毒感染的响应速度,为疫苗和药物的快速优化提供了重要支持。

研究以「A unified evolution-driven deep learning framework for virus variation driver prediction」为题于 2025 年 1 月 17 日发表在《Nature Machine Intelligence》上。

在这里插入图片描述

论文地址:

https://www.nature.com/articles/s42256-024-00966-9

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:

https://github.com/hyperai/awesome-ai4s

数据集:UniRef90 预训练数据集和病毒深度突变扫描数据集

病毒在进化过程中会不断产生新突变并进行选择性累积,因此,针对进化场景的蛋白质语言模型需要具备强大的零样本泛化能力,即能够处理未见过的突变情况。为了实现这一点,研究团队选择了 UniRef90 作为蛋白质语言模型预训练的数据集。UniRef90 包含丰富的序列层面进化信息,同时不会在模型训练初期对性能造成负面影响。这种丰富的进化信息让模型在预训练过程中接触到足够多的蛋白质家族序列样本,从而提升其零样本泛化能力。

此外,为了支持模型学习病毒突变引所致进化适应度景观,研究团队采用了各类病毒的开源深度突变扫描数据集。

模型架构:进化启发的通用架构设计

研究团队基于「微弱突变放大」和「稀少有益突变挖掘」的设计,提出了进化驱动的病毒变异驱动力预测框架 E2VD。如下图 a 所示,主要包括 3 个模块,分别是蛋白质序列编码、局部-全局相互作用依赖融合 (Local-global dependence coupling) 和多任务焦点学习 (Multi-task focal learning)。

在这里插入图片描述

E2VD 模型架构
  • 首先,在蛋白质序列编码模块,研究团队自主训练了面向病毒进化的定制化蛋白质大语言模型 (Protein language model),可实现病毒蛋白序列特征的精准提取;
  • 其次,在局部-全局相互作用依赖融合模块,研究人员利用卷积神经网络 (CNN) 捕捉突变与临近氨基酸之间的相互作用依赖关系,并设计了可学习的动态注意力机制,构建突变所在 motif 级别的远程相互作用依赖网络。这一设计有效解决了变异体整体突变较少导致的微弱效应难以被捕获的问题;
  • 然后,在多任务焦点学习模块,结合了多任务学习和难样本挖掘策略的优势,通过多任务训练的参数共享来提升模型对于病毒突变适应度的预测性能。

在这里插入图片描述

更重要的是,如上图 b 所示,团队设计了新颖的多任务焦点学习损失函数 (Multi-task focal loss),促使模型在训练时更加关注难以被有效学习的稀少有益突变,从而大幅度提升对于稀少有益突变(即难样本)的预测表现。

在这里插入图片描述

此外,如上图 c 所示,E2VD 预测框架可以针对各类病毒适应度预测任务进行输入和输出的灵活调整,例如预测突变所致结合亲和力变化可以仅输入病毒序列、预测突变所致抗体逃逸能力变化可同时输入病毒序列和抗体序列等,从而在统一的架构上实现跨病毒类型、跨毒株的高精度进化预测。

具体而言,在研究中,E2VD 框架被用于 SARS-CoV-2 病毒、Influenza(流感病毒)、Zika(寨卡病毒)和 HIV(艾滋病病毒)的相关预测任务:

  • 针对 SARS-CoV-2 的任务包括结合亲和力 (Binding affinity)、表达量 (Expression) 和抗体逃逸 (Antibody escape) 的预测,这 3 个任务是病毒变异的关键驱动因子。
  • 针对 Influenza、Zika 和 HIV 病毒的任务则是预测突变导致的适应度效应,用来分析模型的泛化能力。

实验结果:E2VD 预测有益突变的精度提升 67%,泛化性能极佳

E2VD 可精准捕获病毒进化模式,预测有益突变的精度提升 67%

团队比较了面向进化场景的定制化蛋白质语言与主流蛋白质语言模型的预测表现,结果表明,团队定制化的蛋白质语言模型以最少的 340M 模型参数量实现了最佳的预测表现,甚至超越了参数量为其 44 倍的 ESM2-15B 的效果,这证明了定制化的预训练数据集和训练策略的有效性。

随后,团队在各类关键病毒进化驱动力预测任务下比较了 E2VD 与主流方法,结果表明 E2VD 显著超越其他方法,性能提升在 7%-21% 不等。进一步地,为了证明 E2VD 精准捕获病毒进化模式的能力,比如对不同类型突变的精准区分、对稀少有益突变的精准挖掘,研究人员进行了多个实验。

在这里插入图片描述

a: w/o MT 代表没有 MT 模块的 E2VD;w/o LG 代表没有 LG 模块的 E2VD;w/o MT&LG 代表没有 MT&LG 模块的 E2VD

b: 结合亲和力预测任务中描述的风险等级的 3 种突变类型

d: 不同损失在捕捉稀有有益突变方面的能力

首先,用模块消融研究以探讨局部-全局相互作用依赖融合 (LG) 模块和多任务焦点学习 (MT) 模块对预测性能的贡献。如上图 a 所示,研究发现,MT 模块在挖掘病毒适应性中的稀缺有益突变方面是有效的(召回率从 0 提升到 69.63%)。将 LG 模块和 MT 模块结合使用,可以进一步提高模型性能,准确率达到 91.11%,召回率达到 96.3%,相关系数达到 0.87。

团队提出的多任务焦点损失函数 (Multi-task Focal Loss) 可显著改善预测表现。为了评估多任务焦点损失在捕捉稀有有益突变方面的能力,研究人员选择代表性的有益突变和有害突变组成测试集。

  • 在有益突变上的预测,如上图 d 所示,E2VD 将稀少有益突变的预测精度从 13% 提升至 80%,实现了跨越式精度提升,从而精准和高效挖掘对于病毒进化至关重要的稀少有益突变。
  • 对于有害突变,多任务焦点损失和传统 BCE&MSE 表现相似,这是因为 BCE&MSE 无法帮助模型学习稀缺的有益突变,从而使得模型倾向于将所有突变预测为有害突变。

如下图 b 所示,研究人员用主成分分析 (PCA) 对流感、寨卡和艾滋病病毒中 3 种类型的突变进行降维可视化,结果发现,在 LG 模块处理后,不同突变的特征被清晰地区分开,边界明确。这说明,LG 通过捕获和重建分子内相互作用网络,可增强 E2VD 对各种突变类型的敏感性,从而更好地理解病毒的进化适应性。

在这里插入图片描述

流感、寨卡和艾滋病病毒预测任务中 3 种突变类型的可视化分析

E2VD 泛化性能极佳,可跨病毒类型、跨毒株进行预测

病毒在选择压力下不断进化,会导致多种毒株的出现,例如最近备受关注的流感病毒就包括多种类型,且呈现季节性的变异。因此,模型的泛化能力对于应对复杂的病毒进化趋势至关重要,研究人员提出「序对比例」(Ordinal Pair Proportion, OPP) 来评估模型在同种病毒不同毒株,不同类型病毒预测任务上的泛化能力。

  • OPP 表示在所有突变对中正确预测突变对的比例,OPP 值越大,预测的适应性景观越不混乱,表明模型预测病毒变异驱动因子的相对顺序的能力更加理想

如下图 b 所示,对于跨毒株的结合亲和力预测任务,研究人员评估了 6 种不同毒株以及所有毒株混合数据 (All) 的 OPP,结果发现,E2VD 在各类情况下都显著超越其他方法。如下图 c 所示,在表达水平预测任务上,E2VD 也在绝大多数毒株上优于其他方法。总体而言,E2VD 在分布外毒株上全面超越了最先进的方法,表现出高度泛化性能。

在这里插入图片描述

  • b、c:E2VD 预测病毒不同毒株的 OPP;d、e、f:E2VD 预测不同类型病毒的性能

如上图 d、e、f 所示,在跨病毒类型预测上,研究人员发现,E2VD 在新冠病毒、寨卡病毒、流感病毒、艾滋病病毒上展现出理想的泛化能力,全面超越其他方法,未来或可进一步拓展至更多传染性病毒。

AI 预测病毒进化具备巨大潜力

上述研究从进化论的角度重新探索病毒进化预测问题,构建了适用于不同病毒类型、不同毒株的通用进化预测框架 E2VD,该框架在多个病毒变异驱动因子预测任务中表现出卓越的预测性能和泛化能力,使预测病毒进化趋势成为可能。进一步地,E2VD 的灵活定制化组合也可以实现不同尺度的进化趋势预测。

  • 首先,E2VD 能够解释大流行病中病毒进化的路径,帮助我们理解毒株流行的原因及其背后的分子机制。
  • 其次,结合虚拟深度突变扫描模拟,E2VD 能够预测可能带来的高风险突变,达到 80% 的命中率。
  • 最后,E2VD 还实现了大流行尺度的宏观进化轨迹预测,重现病毒在真实世界中的进化路径,从而为病毒进化机制的解读提供理论性支撑。

未来,团队计划将 E2VD 与疫苗和蛋白药物设计流程相结合,以提高设计的效率和可控性,这将对病毒防治和药物设计产生极大意义。

值得一提的是,该研究的作者是隶属北京大学信息工程学院的田永鸿教授、陈杰副教授及其指导的博士生聂志伟、硕士生刘旭东等,团队持续着眼于 AI for Life Science 领域的研究,其项目「领先于病毒的进化——通过人工智能模拟预测未来高风险新冠病毒变异株」曾于 2022 年 11 月成功入围 2022 年度「戈登贝尔新冠特别奖」(戈登贝尔奖是国际上高性能计算应用领域的最高学术奖项)。

在病毒进化预测领域,团队拥有深厚积累。2023 年 7 月,团队在 The International Journal of High Performance Computing Applications 上发表「Running ahead of evolution—AI-based simulation for predicting future high-risk SARS-CoV-2 variants」。具体而言,研究人员预训练一个大型蛋白质语言模型,并构建了基于结合亲和力和抗体逃逸预测的高通量筛选方法。这是首个针对 SARS-CoV-2 RBD 突变模拟的研究,模型成功识别了 5 个关切变异株 RBD 区域的突变,并在几秒内筛选出数百万个潜在变体,为疫情防控提供了一种「AI+HPC」(人工智能+高性能计算)范式的技术手段。

论文链接:

https://journals.sagepub.com/doi/abs/10.1177/10943420231188077

除此之外,团队发展了一系列面向生命科学的基础模型。以对于酶工程至关重要的「酶-底物」相互作用预测任务为例,团队在 2024 年 12 月放出预印本文章,提出了一个多用途酶-底物相互作用预测的渐进式条件深度学习框架 MESI。

论文链接:

https://www.researchsquare.com/article/rs-5516445/v1

具体而言,通过将酶-底物相互作用的建模解耦为两阶段学习过程,两个条件网络被设计分别引入酶反应特异性和关键催化相互作用信息,从而促进特征隐空间从蛋白质和小分子的通用领域逐渐过渡到催化感知领域。在各种下游任务中,该模型在始终优于最先进的方法。此外,提出的条件网络隐式捕获了酶催化的基本模式,而额外的计算开销可以忽略不计。在这种条件感知机制的支持下,该模型可以在不需要任何结构信息的情况下,以高效低成本的方式准确识别活性位点,挖掘参与关键催化相互作用的酶残基和底物官能团。

在人工智能的辅助下,团队将会进一步推动 AI for life science 相关领域的深入研究,为病毒预测、蛋白质类药物设计、疫苗研发等开辟更多可能性,期待他们的更多成果。

参考资料:
https://www.who.int/
https://news.pku.edu.cn/jxky/90d276ae5f8441849fd04372fd872154.htm
https://news.pkusz.edu.cn/info/1003/8711.htm


超神经HyperAI
1.3k 声望8.8k 粉丝