摘要:2022 年 8 月 5 日,2022 阿里云生命科学与智能计算峰会在北京望京昆泰酒店举行,深势科技创始人 &首席科学家、北京科学智能研究院研究员张林峰,带来了题为《AI+分子模拟,赋能药物发现新源头》的分享,以下是他的演讲内容整理,供大家阅览:
深势科技创始人 &首席科学家、北京科学智能研究院研究员 张林峰
01 当 AI 能力深入流向千行百业
AI 带给我们的能力,不只是处理大规模的生活数据,也包括科学数据,其本质是表达高维复杂的函数,能够让我们更好地利用科学规律,利用量子力学方程、分子力学方程,能够更高效、更准确地求解物理方程做模拟。比如在药物或材料的设计过程中,在制造飞机、大坝、桥梁等大型工程的过程中,可以先进行计算模拟,在计算机仿真过程中确保没问题再真正进行实验和实体的设计。
而这一系列新技术的突破,将为微观世界工业化的设计和生产带来新的突破。这样一个底层范式驱动的一系列微观世界计算与设计新工具,将为药物研发、材料研发以及很多行业的方方面面带来更多不同。
当今计算生物或药物设计、材料设计、化工设计等场景中,往往期望用计算模拟解决一些问题,但是实现起来非常困难。原因在于解决这些问题的本质,需要有效地描述微观粒子之间的复杂多体作用,最终对应的是求解一些高维复杂的微分方程。而这些方程可能在 100 多年前就已经存在,但一直以来都缺乏有效的计算工具和算法工具来克服维数灾难。
维数灾难指求解已经熟知的方程所需要的计算复杂度指数依赖于输入的个数。比如蛋白质体系的输入为几十万起步,而计算的算力需求指数依赖于输入,这也意味着完全不可解。因此我们真正利用计算仿真做进一步计算的时候,需要引入大量的人为近似和人为建模。
建模过程使得仿真的精度难以达到现实的需求,这是长期以来我们面临的最大难题。而 AI 的作用是有效地表示电子、分子、原子的相互作用,从而能够克服维数灾难,更高效、更准确地进行模拟,使模拟的准确性能够符合现实要求,能够真正指导实验。
AI for Industry 是将行业发展积累下来的海量数据进行直接的模型训练,并期待它能够解决实际问题。但此处存在数据稀缺的问题,很多行业的数据往往具有一些不利于 AI 使用的特点,比如数据样本量非常少,比如数据 label 非常杂,比如数据里的信息与目标之间的依赖关系非常复杂。
而 AI for Science 带来的机会远不只是对科学数据的直接拟合。科学行业的发展是将科学原理表述为熟知的一系列物理定律和科学方程,AI 能够带来的可能性是学习一些科学原理或物理模型,从而有效地求解物理方程,进一步可用于解决实际问题,能够克服很多数据稀缺导致的问题。在生物医药行业,往往越有价值的靶点、体系,其数据的稀缺程度越高。
因此,计算模拟能够带来很多新的可能性,而 AI 则能够让计算模拟变得更快、更准。
02 生物医药拥抱 AI,为领域创造更多可能
基于 AI 为科学应用尤其药物设计领域带来的能力,也逐步发展出了一系列新工具。药物研发需要的并不是一两个核心的计算工具或一两个重磅功能,而是一个解决方案体系。同时通过不断地迭代,才能真正形成面向行业的可落地解决方案。
蛋白结构预测是药物研究领域的常见场景。目前在药物设计领域,一些较为少见的比如 RNA 相关的药物研发等数据丰富程度不高,因而模型效果不够好。一方面,我们需要持续地改进模型,另一方面也需要一些解决方案能够更好地将实际的模拟以及实验相结合。
Uni-Fold 重现了整个蛋白结构预测从 training 到 prediction 到产品化的过程,并在某些 metric 之下取得了更好的成果。此外,我们已经将聚合物、很多复杂情况下所需要的训练代码以及需要的数据和相应的模型都已释放到开源社区,期望进一步地推动药物研究领域的发展。
此外,位点也是药物设计比较关心的维度。尽管整体从 AI 模型预测得到的结果已经非常不错,但是一些局部依然存在一些不足。因此需要结合模拟的手段来进一步 refine,而模拟最常面临的问题是时间尺度。
蛋白的大的构象变化往往需要很长的模拟时间,因此我们通过 RiD 方法,用神经网络表示高维的集合变量所对应的自由能,然后用自由能来加速模拟,再结合 AI 的预测,可以进一步对蛋白的构象进行 refine 并得到更好的结构。
药物设计很多情况下需要考虑别构, AI 的模型预测能够为我们提供正构的构象,而我们还需要增强的采样来帮助发现别构的位点。比如在某个案例中,别构的位点位于左下角。而传统的模拟手段由于 barrier 非常高,因此在比如 50 个纳秒的模拟时间里,大多时候体系的 confirmation 卡在正构的位点下。但是结合 AI 的增强采样,能够很快大范围采集到体系的别构位点。
在药物研发的案例中,我们发现体系正构位点下有共价结合的药物,但共价药物往往选择性比较差,因为它比较活泼,经常容易位移到不同类型的其他不相关位点上。针对该问题,我们找到了比较合适的别构位点,并且针对别构位点进行非共价的药物设计,活性更强。以上实现同样需要有效地结合 AI 的结构预测以及进一步增强采样的模拟。
冷冻电镜结构的解析除了 AI 的模型结合之外,与模拟手段相结合也非常关键。比如给定电镜密度图,它对于最后确定蛋白体系的结构而言,就是一个电子的 constrain。再结合模拟达到的效果,该体系即可很好地贴合到密度图的 constrain。直接的 Uni-Fold 结构预测是结构确定的 initial condition,再结合实验数据,最终得到的 constrain 下的 MD 能够带给我们最理想的结构。
确定结构和靶点之后,需要大规模的虚拟筛选。Docking 方案在过去的十几年前被众多领域频繁使用。但在如今在高性能的计算背景之下,需要对它进行极致的优化——将所有部分都搬到 GPU 上。利用 GPU 的特点对 docking 构象进行 global 搜索,加上局域的优化,可以进行进一步调整,比如 global 的探索参数可以更大,局域的优化可以更并行。
经过一系列针对 GPU 特点的优化,同样精度下的性能得到了巨大提升。并行调度 100 卡 NVDIA V100 GPU 情况下,完成 38million 分子数据库的多级分子对接仅需 11.3 小时。
血脑屏障等类型的疾病需要的分子比较小。而对于一些特定的疾病类型,分子的可能性已经无需尝试,基本可以枚举地做筛选,这也是极致算力和相应算法的结合带来的新的可能。
完成大规模的筛选以及活性的确认后,需要对药物进行进一步改造,以使其符合 ADME/T 等方面的优化需求,同时需要保持其活性。
Uni-FEP 的解决方案能够为药物变化前后结合自由能的改变做定量计算。该计算能力目前已经能够达到化学精度以内的标准,因此大幅节约了合成分子所需的实验成本和时间成本。
03 AI+算力场景需求叠加,上云是大势所趋
药物研发的各个环节已经形成了一整套的计算解决方案。计算的解决方案随着应用场景的深入,会出现很多复杂场景,而场景的复杂度使得解决方案最后的工业化程度上有了新要求。与此同时,算力的基础设施在快速变化,底层的性能特点、是否选择性能优化、是否选择迁移等,在大规模需求之下也会是成本上非常重要的考虑。
基于一些解决方案,药物研发领域形成了 pipeline,它是从结构到动力学、药物的发现、高效关系的建立等一系列环节上形成的计算解决方案。其逻辑也非常简单,主要分为 data driven 和 simulation driven。
一系列解决方案都有高弹性的需求。在高弹性的基础之上,不同的方案对于数据的使用需求非常不一样。比如大部分时候模拟需要的是高算力,而冷冻电镜的数据非常大,这样的灵活性和弹性是过去的计算解决方案难以实现的。因此,上云是大势所趋。
随着深度的业务发展,比如客户使用深势科技的药物研发平台时,私有化的需求非常典型且极具规模。而结合计算巢的方案,使得用户能够更加聚焦于业务需要的软件解决方案,而将私有化部署等交给云来实现。
算力和数据算法的发展催生了 AI,而伴随着 AI 的逐步发展,它需要能够真正有效地利用物理规律带来更多来自底层的可能性。
以上就是我今天的分享,谢谢大家。
点击这里,观看嘉宾在本次峰会的精彩演讲视频。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。