蛋白质是生命活动的主要执行者,其结构与功能之间的关系一直是生命科学领域研究的核心议题。近年来,随着深度学习的兴起,借助其强大的数据处理能力,让模型学习蛋白质序列、结构及其功能之间的映射关系,设计出具备更高稳定性、更强结合亲和力、更高酶活性的新型蛋白质,可以大幅提升蛋白质设计的效率,并有效降低其研发成本。
然而,现有方法通常需要在大规模数据集上训练一个参数量极大的模型,难以推广到同源序列稀少的特异蛋白上,往往也只能生成结构、功能相对简单的蛋白质。此外,实验验证表明,设计出的蛋白一般活性较低,能够超越野生型蛋白质的更是凤毛麟角。
对此,上海交通大学自然科学研究院/物理与天文学院/张江高等研究院/药学院洪亮课题组的助理研究员周冰心等人,设计了一种扩散概率模型框架 CPDiffusion, 该框架结合蛋白质骨架结构、活性位点等多种生成条件,能够以非常低的训练成本、数据成本,学习蛋白质的序列、结构与功能之间的隐含映射关系,进而生成多样化的蛋白质序列,这些生成的序列能够在湿实验验证中以极高的成功率通过测试。
值得注意的是,CPDiffusion 的训练和推理过程几乎不需要专家指导, 可自动识别高度保守的区域,进而在确定保守区功能的基础上,在非保守区域引入更多的变化,提高所生成序列的多样性。该研究以「A conditional protein diffusion model generates artificial programmable endonuclease sequences with enhanced activity」为题,发表于 Nature 旗下 Cell Discovery。
研究亮点:
- 该研究成功设计并生成内切核酸酶 KmAgo、PfAgo,它们的 DNA 剪切活性最高提升 10 倍以上,显著高于现在已发现的中温野生型蛋白活性
- 该研究可一次性改变数百个氨基酸,为蛋白质工程研究提供了更多的可能性
- 多样化生成的新型蛋白序列还能扩展蛋白质家族的数据库,为科学家们提供更为丰富的研究资源
论文链接:
https://www.nature.com/articles/s41421-024-00728-2
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s
数据集:确保样本多样性,避免数据偏见
为了学习蛋白质序列-结构-功能之间的映射关系,CPDiffusion 模型用 CATH 4.2 中的 2 万条野生型蛋白质进行训练,此外,研究人员还在训练集中加入了 694 条 pAgos 蛋白质,用于强化模型对待生成蛋白质特征的理解。
这些蛋白质来自先前研究中整理的 pAgo 蛋白质家族,包括短型、long-A、long-B 型的 pAgo 蛋白质,确保了所选样本的多样性,以此减少可能存在的数据偏见问题。此外,数据集中大多数 WT 蛋白质是中温 pAgos,仅有少数 long-A pAgo 蛋白质属于嗜热型。
模型架构:6 步法自动设计 pAgo 蛋白
为了验证 CPDiffusion 对功能性蛋白质的生成效果,研究人员选择将关注点放在 pAgo 蛋白上。pAgo 蛋白是一种在原核生物 DNA 干扰过程中起重要作用的内切核酸酶,能够特异性地识别并切割特定的单链 DNA 或 RNA 序列,在诊断学领域具有广泛的应用价值。此外,pAgo 蛋白对底物具有高度亲和力,并能够特异地识别目标序列,这使得它们成为成像和基因编辑的重要工具。
研究人员利用 CPDiffusion 框架设计新型 pAgo 蛋白,如下图 a 所示, 首先将输入蛋白质 (Original pAgo) 的序列和信息转化为一种图表示,这种图表示在氨基酸层面展示了蛋白质的分子生化和拓扑特性。如图 b 所示, 蛋白质进入前向扩散 (Forward Diffusion) 阶段,原始蛋白质中的每种氨基酸类型都会遵循某个替换概率矩阵,在一系列步骤(T 步)中被破坏,直到整个序列变得均匀分布。
CPDiffusion 设计新型 pAgo 序列的工作流程
如上图 c 所示, 在逆向扩散 (Reverse Diffusion) 阶段,研究人员从 20 种均匀分布的氨基酸类型中随机抽样氨基酸,随后,对蛋白质序列逐步去噪。如上图 d 所示, 在去噪过程中,研究人员依据一些条件(如目标蛋白质的野生型骨架结构 Backbone、二级结构 Secondary Structure,以及基于野生型蛋白质的氨基酸替换矩阵 Transition Matrix 等)来指导这一过程。为了确保模型能够学习到蛋白质三维结构中隐含的等变性,研究人员使用了一个等变图卷积层来拟合传播函数。随后,该模型会生成蛋白质骨架上每个氨基酸位置的联合概率分布,通过对学习到的分布进行采样 (Sampling),研究人员可以得到相应的蛋白质序列 (Generated pAgo),如上图 e 所示。
接下来,研究人员使用 AlphaFold2 对生成的序列进行结构预测,并通过评估 RMSD 和 pLDDT 等指标来筛选出合适的序列。最后,如下图 f 所示, 这些合适的序列会在实验室中通过湿实验(实验合成 Synthesis、表征 Characterization 和评估),进一步确认它们的实际特性,如表达水平、酶活性和热稳定性等。
湿实验
实验结论:新型蛋白质活性、热稳定性更强
研究人员以嗜温 pAgo 蛋白(如 KmAgo)、嗜热 pAgo 蛋白(如 PfAgo)作为候选蛋白,进一步生成两组新蛋白质序列。如下图所示,利用生成和筛选框架 CPDiffusion,研究人员成功生成了 27 种新型人工 KmAgos (Km-APs) 和 15 种新型人工 PfAgos (Pf-APs)。这些新生成的蛋白质,与原始的野生型 (WT) 模板相比,有 50%-70% 的序列同一性,与其他非模板 WT 蛋白质(即 NCBI 数据库中的其他 WT 蛋白)相比,序列同一性则低于 40%。
- KmAgo 是一种中温酶,野生型的 DNA 切割活性相对较低,限制它在实际应用中的潜力
- PfAgo 是一种超高温酶,野生型的 DNA 切割活性更高,但通常仅在高温下发挥作用,随着温度下降,活性也会随之减弱
CPDiffusion成功学习蛋白质序列的保守特征、表面带点性等重要性质
值得一提的是,CPDiffusion 的训练和推理过程几乎不需要专家指导, 可自动识别高度保守的区域,从而在确定保守区功能的基础上,在非保守区域引入更多的变化,提高所生成序列的多样性。
通过多种实验验证,如下图所示,研究人员发现为 KmAgo 生成的新序列中,所有序列都能够表达。将近 90% 的新序列具备 DNA 切割活性,超过 70% 的序列表现出比野生型更高的活性,其中,表现最佳的新 KmAgo 活性比野生型 KmAgo 高出将近 9 倍。此外,相较于野生型 KmAgo,部分 Km-AP 的热稳定性也得到了增强。
e: 37 °C 下 27 种 Km-AP 的 DNA 切割活性
g: 27 个 Km-AP 中,发挥不同作用的蛋白质数量
f: 42°C 下培育 2min 和 5min后,WT KmAgo 和 27 种 Km-APs 的 DNA 切割活性
如下图所示,在为 PfAgo 生成的 15 个新序列中,所有的序列都能够表达,并展示出单链 DNA 切割活性。其中表现最佳的新 PfAgo 不仅将野生型 PfAgo 的熔解温度从 100°C 左右降低到了约 50°C,而且在 45°C 时的单链 DNA 切割活性是野生型 PfAgo 在 95°C 时的 2 倍,更是中温下野生型 KmAgo 切割活性的 11 倍。
c: 45 °C 下 15 种 Pf-AP 的 DNA 切割活性
d: WT PfAgo 和 Pf-AP 的熔融温度
e: 15 个 Pf-AP 中,发挥不同作用的序列数量
综上,CPDiffusion 可作为一种强大的全新蛋白质序列设计工具,能够自动从野生型功能蛋白中学习,并设计出功能更强大的复杂蛋白质序列,丰富现有蛋白质数据库,为蛋白质工程设计带来更多的可能。
AI 重塑蛋白质工程的未来之路
用 AI 解码蛋白质奥秘,对于生命科学研究的数字化进程具有关键意义,在这场探寻生命本质的竞赛中,中国研究团队正不断前进,贡献力量。作为该领域的杰出代表之一,本研究的通讯作者洪亮教授及其课题组长期关注 AI 蛋白质定向改造和辅助药物设计, 具体研究内容包括但不限于蛋白质结构预测和优化、蛋白质定向改造和设计、辅助药物设计和优化等,团队成果颇丰。截止目前共发表论文 77 篇,其中多篇登顶 Nature 期刊。
洪亮教授课题组主页:
https://ins.sjtu.edu.cn/people/lhong/index.html
自 2021 年起,洪亮教授团队就尝试将 AI 用于蛋白质领域,比如,构建蛋白质工程领域的专有模型,端对端地面向功能设计序列。 他们曾与上海人工智能实验室的谈攀研究员合作,提出了一个基于蛋白质预训练模型的微调训练方法 FSFP,该方法能在只利用 20 个随机湿实验数据的情况下,高效训练蛋白质预训练模型,大幅提高模型的单点突变预测阳性率,可适用于蛋白质适配性的小样本学习,在实际应用中显示出了巨大的潜力。
更多详情:20个实验数据创造AI蛋白质里程碑!上海交大联合上海AI Lab发布FSFP,有效优化蛋白质预训练模型
洪亮教授团队还开发了一种名为 ProtLGN 的微环境感知图神经网络, 能够从蛋白质三维结构中学习并预测有益的氨基酸突变位点,指导具有不同功能白质单位点突变和多位点突变设计。实验结果显示,超过 40% 的 ProtLGN 设计单点突变体蛋白质优于其野生型对应物。
更多详情:无实验数据指导蛋白质定向进化,上海交大洪亮课题组发表微环境感知图神经网络 ProtLGN
此外,他们还引入了一种简单、高效、可扩展的适配器 SES-Adapter, 将蛋白质语言模型嵌入与结构序列嵌入结合,以创建结构感知表示 (structure-aware representations),能够显著增强蛋白质语言模型的性能。
以上研究展示了深度学习在蛋白质设计中的强大潜力,毫无疑问,随着深度学习技术在蛋白质领域的进一步应用,蛋白质工程的研究将迎来更加广阔的发展空间。
参考资料:
https://mp.weixin.qq.com/s/a4gsV4yjzKnW4u6Vtl8LiQ
https://ins.sjtu.edu.cn/article
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。