头图

自上个世纪以来,科学家们便投身于依据氨基酸序列来预测蛋白质结构的探索之中,并怀揣着利用氨基酸创造全新蛋白质、构建生命蓝图的愿景。然而,这项宏伟的使命在时间的长河中进展缓慢,直至近几年,随着 AI 技术的迅猛发展,才如同被注入强劲动力,驶入发展快车道。

自 2016 年以来,由分子之心创始人兼首席科学家许锦波等人开启的一场科技革命,正悄然改变着这一领域。他们开创性地将深度残差网络 ResNet 架构引入结构预测领域,成功实现了蛋白质残基接触预测的显著提升。这一突破性进展,为 AI 与蛋白质设计的深度融合奠定了坚实基础,在此之后,众多科研团队前赴后继,在这一领域深耕细作。大量结合共进化和深度学习的算法如雨后春笋般涌现,其中,2024 年诺贝尔化学奖得主 David Baker 一系列重磅成果以及 AlphaFold 等更是声名鹊起,将这一领域的研究不断推向新的高度。

然而,回顾以往的研究,无条件蛋白质结构生成模型往往仅在小规模数据集上进行训练,结构数量最多不超过 50 万种。并且,在合成过程中,这些模型的神经网络缺乏有效的控制手段,与自然语言、图像或视频生成等领域的生成模型相比,无论是在规模还是在性能上都存在较大差距。

在自然语言、图像和视频生成领域,人们已经见证了由于可扩展的神经网络架构、大规模训练数据集以及精细的语义控制,所带来的翻天覆地的变化和重大突破。这不禁让研究人员陷入深思:能否借鉴这些领域的成功经验,对蛋白质结构扩散和流模型进行类似的扩展和控制,从而在蛋白质设计领域也实现质的飞跃?

令人欣喜的是,英伟达近日联合魁北克人工智能研究所 Mila 、蒙特利尔大学、麻省理工学院的研究团队,开发出了一种新型的大规模流式蛋白质主链生成器 Proteina 。 Proteina 的参数量是 RFdiffusion 模型的 5 倍,并将训练数据扩展到 2,100 万个合成蛋白质结构,在从头设计蛋白质主链方面的性能达到了 SOTA 级别,并以前所未有的长度——高达 800 个残基,生成了多样化且可设计的蛋白质。

相关研究成果以「Proteina: Scaling Flow-based Protein Structure Generative Models」为题,已入选 ICLR 2025 Oral 。

论文地址:

https://openreview.net/forum?id=TVQLu34bdw&nesting=2&sort=date-desc

推荐一个学术分享活动,3 月 7 日中午 12:00,最新一期的 Meet AI4S 直播邀请到了华中科技大学副教授黄宏老师、上海人工智能实验室 AI for Science 中心青年研究员周东展、上海交通大学自然科学研究院助理研究员周冰心,介绍个人成果,分享科研经验。

AI 赋能蛋白质设计:从结构到序列,从预测到设计

在生命科学研究的进程中,蛋白质设计始终占据着极为关键的地位。长期以来,从海量的蛋白质序列数据中学习规律和模式,都是科研人员所面临的痛点。幸运的是,随着 AI 技术的加持,这一领域率先迎来了转机。

例如,DeepMind 推出的 AlphaFold3 通过改进对 DNA 、 RNA 及小分子相互作用的建模,能够精准预测蛋白质复合体结构,为理解蛋白质在细胞内的复杂相互作用提供了有力支持。 Meta 曾经推出的 ESMFold 将语言模型与结构预测相结合,大幅提升了预测速度,让科研人员能够更高效地获取蛋白质结构信息。而微软最新推出的 BioEMU – 1 则是通过模拟蛋白质构象动态变化,为深入探究蛋白质的运动机制以及开展药物设计开辟了全新的途径。

有了这些基础,AI 开始逐渐渗透到了蛋白质结构设计方面。

蛋白质结构设计主要是基于已知的蛋白质结构,通过各种方法进行改造和优化,以获得具有特定功能或性质的蛋白质。由于蛋白质的功能主要由其三维构象决定,直接建模结构分布的方法逐渐成为主流趋势,其中基于扩散模型或流模型的算法表现尤为突出。例如,Generate Bio 公司开发出的 Chroma 模型首次大规模将扩散模型用于精确的蛋白质设计,能够生成「自然界中完全不存在的蛋白质」。

此外,David Baker 提出的 RFdiffusion 通过微调 RoseTTAFold 结构预测网络,能够生成具有特定功能的蛋白质骨架,为功能蛋白的设计提供了精准的结构基础。哥伦比亚大学和罗格斯大学的研究人员提出的 Genie2 则将训练数据扩展到 AFDB,能够生成具有多个独立功能位点的复杂蛋白质。

众所周知,蛋白质的结构和序列是相互关联的,结构决定功能,而序列是结构的基础。当蛋白质结构被 AI 技术改变,蛋白质序列必然也会随之改变。蛋白质序列设计主要是根据已知的蛋白质结构,通过计算和预测方法,设计出与该结构相匹配的氨基酸序列。

目前,AI 蛋白质序列设计主要分为两种,一种是固定主链蛋白质序列设计工具,例如,斯坦福大学推出的 ESM-IF 采用预训练与微调结合的范式,巧妙地将结构知识融入功能蛋白设计,为设计具有特定功能的蛋白质提供了有力保障。 David Baker 提出的 ProteinMPNN 基于图神经网络,能够根据主链结构生成匹配的氨基酸序列,为蛋白质序列设计提供了高效精准的方法。

另一种是面向功能的蛋白质序列设计工具,例如,Salesforce 推出的 ProGen 作为条件生成模型,能够依据特定功能需求定制蛋白质序列,为功能蛋白的设计提供了高度灵活的解决方案。西班牙赫罗纳大学推出的 ZymCTRL 通过微调预训练语言模型实现功能定向设计,为蛋白质功能的精准调控提供了有力支持。中科院天津工业生物技术研究所提出的 P450Diffusion 基于扩散模型生成具有特定催化功能的 P450 酶变体,为酶工程领域带来了新的发展机遇。

*点击查看详细报道:催化能力提高 3.5 倍!中科院团队基于扩散模型,开发 P450 酶从头设计方法 P450Diffusion

然而, 与其他三类蛋白质模型相比,当前蛋白质结构设计模型的规模普遍偏小。具体而言,AlphaFold 3 的训练集规模直接逼近亿级,BioEmu-1 在预训练阶段更是利用了超过 2 亿条来自 AFDB 数据库的蛋白质序列,ProGen 的参数量更是高达 12 亿。但反观目前蛋白质结构设计领域的优秀代表 RFdiffusion,其训练数据仅来源于蛋白质数据库 (PDB) 存储库中的数万个真实蛋白质结构,所能产生的结构总长度也仅能达到 600 个氨基酸残基。 Genie2 的最大数据集也仅为约 60 万个合成结构蛋白质。

在这样的背景下,业界热切期待一种训练数据量更大、结构总长度更长、可控性更强的蛋白质结构设计模型——Proteina 应运而生。

Proteina 模型:AI 技术在蛋白质设计领域的全新突破

Proteina 作为一种基于流 (Flow) 的蛋白质结构基础模型,采用了创新的可扩展非等变 Transformer 架构,这一架构灵感来源于视觉领域中的扩散 Transformer,即使不依赖计算成本较高的三角层,也能实现顶尖性能,这使得 Proteina 能够在多达 2,100 万种蛋白质结构上进行训练,训练数据增加了 35 倍,最终生成多达 800 个残基的主链,同时保持可设计性和多样性,显著优于以往所有工作。

Proteina 工作流程

如下图所示,该研究主要采用了 Genie2 所使用的 Foldseek AFDB 聚类 DFS 数据集,该数据集涵盖了大约 60 万个合成结构蛋白质。同时,研究还运用了从约 2.14 亿个 AFDB 结构中过滤而得的高质量过滤 AFDB 子集 D21M,这一子集包含了大约 2,100 万个合成结构蛋白质。

数据集统计

基于以上 2 种数据集,研究人员进一步训练了 3 种 Proteina 模型:第一种是 MFS 模型,包含参数量达 2 亿的 Transformer 以及参数量达 1,000 万的三角层;第二种为 Mno – triFS 模型,仅包含参数量达 2 亿的 Transformer,但不包含任何三角层或成对表示的更新;第三种是 M21M 模型,其包含参数量达 4 亿的 Transformer 和参数量达 1,500 万参数的三角层。

在无条件蛋白质结构生成领域,等变方法曾长期占据主导,而 Proteina 证明了大规模非等变流模型也能取得成功。其训练的版本参数超过 4 亿,比 RFdiffusion 大 5 倍以上,是目前最大的蛋白质主链生成器。结果还表明,在 DFS 上训练的模型表现出更高的多样性,但研究人员也可以从完全合成的结构中创建比 DFS 大得多的高质量数据。

在评估指标方面,Proteina 不满足于传统的多样性、新颖性和可设计性评估,而是引入了创新性评估指标——直接将 DFS 的经验标签输入到模型中。这一举措在不同折叠结构之间强制实现了多样性,通过新颖的折叠类别条件约束,为合成蛋白质结构提供了前所未有的控制能力。

如下图所示,与无条件生成相比,Proteina 的条件模型实现了最先进的 TM-Score 多样性,同时达到了最佳的 FPSD 、 fS 和 fJSD 分数,这充分证明了其在折叠结构多样性「fS」方面的优势,以及生成结构与参考数据在分布上具有更好的匹配度。

在无条件生成方面,Proteina 与基线的对比

此外,Proteina 调整了流匹配目标以适应蛋白质结构生成,并探索了分阶段训练策略,如使用 LoRA 对模型进行微调,使其能够生成天然的、可设计的蛋白质,还为分层折叠类别条件约束开发了新的引导方案,并成功展示了自引导以增强蛋白质的可设计性。在蛋白质主链生成性能上,Proteina 达到了 SOTA 级别,尤其是在长链合成方面,显著优于所有基线模型,通过新颖的折叠类别条件约束,展示了比以往模型更优越的控制能力。

中国 AI 蛋白质设计领域的创新涌现

当前,随着 DeepSeek 再度引爆大语言模型,蛋白质设计领域无疑将迎来新的发展机遇,并将涌现越来越多的中国力量。实际上,截至目前,仅在蛋白质结构设计方面,中国科研人员与企业就已经有众多成果不断涌现。

2022 年,上海天壤 XLab 以 AI 为驱动,推出了全新的蛋白质设计平台 ——TRDesign 。 TRDesign 通过大量学习蛋白质序列与结构的关系,能够准确探索出蛋白质可折叠空间所有潜在的可能性,将蛋白质折叠中学到的序列-结构-功能关联反向映射,端到端地从头进行蛋白质设计、检测并进行稳定性、亲和力优化,从而设计出更符合需求的蛋白质结构。

2023 年,分子之心创始人许锦波教授在 2023 世界人工智能大会「WAIC」上推出 NewOrigin 大模型。该模型通过学习千亿级多模态大数据,可实现多模态定向生成,单模型就能满足序列生成、结构预测、功能预测、从头设计等蛋白质生成全流程需求,解决产业应用所需的特定功能蛋白质生成难题,并在真实的产业环境中评估效果与价值。

2024 年 4 月,无锡途深智合人工智能科技有限公司联合多家研究机构,共同发布国内首个自然语言文本-蛋白质大模型 TourSynbio 。 TourSynbio 大模型打通蛋白质设计流程,实现「Protein Design AI in One」,能够对任意蛋白质进行深入表示,支持自然语言对话和提示,极大地简化了蛋白设计的流程。

2024 年 8 月,中科院计算所张海仓团队提出了 CarbonNovo,该成果发表于 ICML2024 。 CarbonNovo 以端到端的方式对蛋白质主链结构和序列进行联合设计。它通过建立联合能量模型,并引入蛋白质语言模型,有效提高了设计效率和性能,相较于现有的两阶段设计模型,展现出显著优势。
论文链接:

https://openreview.net/pdf?id=FSxTEvuFa7 代码链接:

https://github.com/zhanghaicang/carbonmatrix\_public

2024 年 10 月,中科大生命科学与医学部刘海燕教授、陈泉教授团队,开发了一种不依赖于预训练结构预测网络的蛋白质主链去噪扩散概率模型 SCUBA-D,可自动从头设计主链结构,构成了能够从头设计具有全新结构和序列的人工蛋白完整工具链,是 RosettaDesign 之外目前唯一经充分实验验证的蛋白质从头设计方法。相关成果已经发表于 Nature Methods 。
论文链接:

https://doi.org/10.1038/s41592-024-02437-W

2025 年,西湖大学卢培龙团队通过结合深度学习和基于能量的方法,成功设计出了能够特异性结合荧光配体的跨膜荧光激活蛋白 tmFAP,利用深度学习算法解决了跨膜蛋白设计中的核心难题,首次实现了跨膜蛋白与配体分子在膜内的非共价相互作用的精确从头设计,并展示了其在活细胞中的荧光激活能力,为跨膜蛋白的设计和应用开辟了新的道路。该研究已发表于国际顶尖学术期刊 Nature 。
论文链接:

https://www.nature.com/articles/s41586-025-08598-8

当前,中国在 AI 驱动的蛋白质设计领域已形成独特的技术生态,其突破性进展不仅体现在算法创新层面,更在于构建了从基础理论到产业应用的完整创新链条。这些成果的涌现,充分展现了中国在蛋白质设计领域的技术突破的深度和广度。随着 AI 技术的不断发展,相信未来还会有更多令人瞩目的成就出现,为全球生命科学研究和生物医药产业发展范式转变。


超神经HyperAI
1.3k 声望8.8k 粉丝