头图

2021 年,OpenAI 发布了革命性的 CLIP (Contrastive Language-ImagePre-training) 模型——通过无监督学习的方式,CLIP 在不需要额外标注信息的情况下,能够有效地理解和关联图像与文本之间的关系。

几年后的今天,一群生物医学家们从中受到启发——既然 CLIP 是将图像和语言相匹配,那么是否能用同样的思路实现肽与蛋白质相匹配?

通过借鉴 OpenAI 对比语言-图像预训练生成真实感图像的突破性研究,来自杜克大学生物医学工程系的研究团队构建了 PepPrCLIP(基于 CLIP 的肽优先级筛选)流程,可以设计短蛋白质(肽),能够结合和破坏以前无法用药的致病蛋白质。与使用目标 3D 结构生成肽的现有平台 RFDiffusion 相比,PepPrCLIP 速度更快,并且能够创建几乎总是与目标蛋白质更匹配的肽。研究人员还进一步通过实验验证了 PepPrCLIP 优选出的「引导肽 (guide peptides)」在体外作为抑制性肽或与 E3 泛素连接酶结构域融合后,能够实现稳健且优越的靶向结合及调控。

相关成果以「De novo design of peptide binders to conformationally diverse targets with contrastive language modeling」为题,于今年 1 月发布于 Science Advances 。

论文地址:
https://www.science.org/doi/10.1126/sciadv.adr8638

相关数据集下载地址:
https://go.hyper.ai/AT5m9

开源项目「awesome-ai4s」汇集了 200 余篇 AI4S 论文解读,并提供海量数据集与工具:

https://github.com/hyperai/awesome-ai4s

另辟蹊径解决「不可成药」难题

治疗疾病的一种方法是开发能够特异性地靶向并摧毁驱动疾病的蛋白质。有时,这些关键蛋白质具有明确的结构,就像精心折叠的纸鹤一样,因此常规的小分子疗法能够轻松地与其结合。

然而,超过 80% 的致病蛋白更像是「一团乱麻」,无序且缠绕在一起,这使得标准疗法几乎无法找到其表面上的结合位点并发挥作用。所谓「不可成药」,常被用来描述传统药物研发中那些因结构和功能特征而难以成为用药靶点的蛋白质。

根据公开资料,难成药靶点常具有以下特点:

* 具有扩展和平坦的功能界面,缺乏明确的配体结合口袋;

* 缺乏特定配体来使得靶蛋白发挥功能;

* 该靶点是疾病抑制剂,需要药物激活蛋白质活性,使得药物开发更具挑战性;

* 不可成药靶点常具有复杂的生理功能,增加了药物设计和开发的难度;

* 药物开发策略的限制。

为了绕过这些问题,许多研究人员探索了如何利用肽来结合和降解致病蛋白。由于肽是蛋白质的 mini 版本,它们不需要表面口袋进行结合;相反,肽可以结合到蛋白质中的不同氨基酸序列。

但即便是这些方法也有其局限性,因为现有的「现成」结合子并未设计用于附着在不稳定或过度缠绕的蛋白结构上。虽然科学家们一直在努力开发新的结合蛋白,但这些方法仍然依赖于绘制目标蛋白的三维结构信息,而这些信息对于无序目标来说并不可用。

本文介绍的来自杜克大学生物医学工程系的研究团队另辟蹊径,没有试图绘制致病蛋白的结构,而是从大语言模型 (LLMs) 中汲取灵感,构建了 PepPrCLIP 。其第一个组件 PepPr 使用在大量天然蛋白质序列库上训练的生成算法,来设计具有特定特征的新「引导」蛋白;第二个组件 CLIP 利用最初由 OpenAI 开发的算法框架,用来测试和筛选这些肽是否能够与目标蛋白质匹配。

构建基于 CLIP 的肽优先级筛选流程——PepPrCLIP

PepPrCLIP 是如何构建的呢?

简单来说,研究人员首先利用 ESM-2 蛋白语言模型 (pLM) 对真实肽结合剂序列的嵌入进行高斯噪声扰动,以生成具有天然特征的候选肽序列;随后,通过基于 CLIP 的对比学习架构在潜在空间中筛选这些候选肽,以训练共同编码互补肽-蛋白对的模型;最终,构建出的 PepPrCLIP 集成了生成-判别框架,以筛选出完全新颖且能够结合目标序列的肽候选序列。

下图展示了 PepPrCLIP 模型训练的具体过程:

PepPrCLIP 模型训练过程

如上图部分,以 ESM-2 嵌入的天然肽为中心,采样生成高斯分布,然后将其解码回氨基酸序列。经过训练的 CLIP 模块联合编码对应的肽-蛋白嵌入,筛选出成千上万种肽,评估它们对目标的特异性结合活性,具体而言:

* CLIP 架构和训练

首先,通过冻结的 ESM-2-650M 模型将输入序列嵌入,产生输入嵌入;接下来,输入嵌入在序列长度上取平均值,得到一个嵌入向量,适用于肽和蛋白质;应用 h 个 MLP 层,使用修正线性单元 (ReLU) 激活函数处理嵌入向量,得到输出嵌入。通过肽和蛋白质的向量嵌入进行点积,得到 CLIP 分数,值在 -1 和 1 之间。该模型被训练使得肽-蛋白质结合对具有较高的 CLIP 分数。

* 肽候选序列的生成

候选肽通过训练集中的所有肽生成,每个肽通过 PyTorch 中的 ESM-2-650M pLM 进行嵌入;对于给定的肽嵌入,计算嵌入的所有维度的方差;对于源肽中的每个残基,从标准正态分布中采样噪声,并将其乘以方差以创建扰动,该扰动被添加到其对应残基的嵌入中。在推理时,从训练集中随机采样源肽,对于每个源肽,使用上述的噪声方法生成 1,000 个肽。最后,这些肽(大约 10 万个)被送入 CLIP 模型并根据与用户提供的目标序列的预测结合进行排名。

在计算机模拟测试中,研究人员将 PepPrCLIP 与 RFDiffusion 的性能进行比较。研究人员比较了 PepPrCLIP 生成的肽和 RFDiffusion 生成的肽的 ipTM 分数,发现 PepPrCLIP 在目标上有 33% 的肽表现优于 RFDiffusion,如下图所示。而且,PepPrCLIP 仅利用序列嵌入,能够大大提高生成和优先排序的速度,每分钟生成约 1,000 个肽,并且每个蛋白目标的 100,000 个肽排序只需约 1 分钟;相比之下,RFDiffusion 设计一个单一结合物的时间大约为 2 分钟。这种效率使得 PepPrCLIP 在筛选大量肽库时特别具有优势,无论是否有结构信息。

PepPrCLIP 生成与计算机模拟基准评估

为了进一步评估 PepPrCLIP 对有序和无序蛋白质靶标的作用效果,该研究团队还与杜克大学医学院、康奈尔大学和桑福德·伯纳姆·普雷比斯医学发现研究所的研究团队合作,对该平台进行了实验测试。

在第一次测试中,研究团队表明,PepPrCLIP 产生的肽可以有效结合并抑制 UltraID (一种相对简单而稳定的酶蛋白) 的活性。

接下来,他们使用 PepPrCLIP 设计可以附着于 β-catenin 的肽,β-catenin 是一种无序的复杂蛋白质,参与几种不同类型癌症的信号传导。如下图所示,研究小组生成了 6 种肽,CLIP 表明这些肽可以与蛋白质结合,并表明其中 4 种肽可以有效结合并降解其靶标。通过破坏蛋白质,它们可以减缓癌细胞信号传导。

PepPrCLIP 产生的肽引导的 β-catenin uAb 的表征

在最复杂的测试中,研究小组设计了可以与滑膜肉瘤相关的高度无序蛋白质结合的肽,滑膜肉瘤是一种罕见的恶性癌症,占所有软组织肿瘤的 5% 到 10%,可在软组织中发展,主要影响儿童和年轻人,这种疾病的特点是存在一个独特的、高度无序的致癌融合蛋白 SS18-SSX 。

研究团队将肽放入滑膜肉瘤细胞中,测试了 10 种设计。如下图结果所示,在 PepPrCLIP 预测的与 SS18-SSX1 结合的肽中,SS\_PpC\_4 显著降低了 SS18-SSX1-mCherry 荧光;接下来,研究人员还测试了 SS\_PpC\_4 过表达对内源性 SS18-SSX1 融合蛋白水平的影响,值得注意的是,SS\_PpC\_4 肽的过表达显著降低了 SS18-SSX1 蛋白水平 (>40%) 。

PepPrCLIP 产生的肽引导 uAb 对 SS18-SSX1 融合的表征

换言之,PepPrCLIP 设计的肽既可以结合蛋白质,也可以降解蛋白质。如果他们能摧毁蛋白质,研究人员就有机会开发一种治疗以前无法用药治疗的癌症疗法,这开辟了许多令人兴奋的临床可能性。

AI 为攻克「不可成药」提供新工具

2023 年 9 月发表在 Nature 子刊上的最新综述,全面介绍了针对「不可成药」蛋白的药物发现的最新进展及其在临床上的应用。具有相似不可成药特征的各种分子被分为以下几类:

① 小 GTP 酶:如 RAS 家族蛋白,包括 KRAS,HRAS 和 NRAS,这些蛋白由于表面缺乏可靶向的口袋,被认为是不可成药的;

② 磷酸酶:由于每种磷酸酶的结构存在很多相似性,具有选择性低和副作用难以避免的问题,极大地阻碍了药物发现的进展。

③ 转录因子 (TFs):多种人类疾病与参与许多生物过程的 TFs 失调有关,其中大多数由于其结构异质性和可处理结合位点的缺乏而无法被常规小分子靶向。

④ 表观遗传靶点:表观遗传靶点在调节基因表达模式中起着至关重要的作用,并在各种生物过程和疾病中产生影响;

⑤ 其他蛋白质:蛋白质-蛋白质相互作用 (PPI) 及其网络在生物过程和细胞周期调节中具有重要意义,一部分具有平坦相互作用表面的 PPI 比其他 PPI 更难靶向,使它们在一定程度上「不可成药」。

如今,面对所谓的「不可成药」靶点,学术界开发了数十种创新方法,根据不可成药蛋白的机理,采用基于片段的药物发现 (FBDD),计算机辅助药物设计 (CADD),虚拟筛选 (VS),DNA 编码文库 (DEL) 等尖端技术,形成了系统的药物设计策略。如今,人工智能技术的发展和蛋白质大语言模型的崛起,又为攻克这道难题提供了新的工具,近年来,无论是产业界还是学术界都有重要突破。

产业界,2023 年 12 月,生成式人工智能抗体发现领域的领导者 Absci Corporation 宣布与阿斯利康达成合作,开发针对一个肿瘤靶点的 AI 设计抗体。此次合作将 Absci 的 Integrated Drug Creation 平台与阿斯利康在肿瘤领域的专业知识结合起来,旨在加速发现潜在的新的癌症治疗候选药物。 Absci 的 Integrated Drug Creation 平台通过测定数百万种蛋白-蛋白相互作用生成专有数据,这些数据被用于训练 Absci 的专有 AI 模型,并在随后的迭代中验证使用全新 AI 模型设计的抗体。该平台通过在约 6 周内完成数据收集、 AI 驱动设计和实验室验证来加速药物发现,并有望扩大药物靶点范围,包括针对先前被认为不可成药的靶点开发药物。

学术界,2025 年 1 月,AI 制药领军企业英矽智能与加拿大多伦多大学共同主导的一项研究,将量子计算模型与经典计算模型和生成式人工智能相结合,通过对庞大数据集的训练、生成和筛选,探索更广泛的化学可能性,发现靶向「不可成药」癌症驱动蛋白 KRAS 的新颖分子。

KRAS 突变是癌症中常见的突变之一,出现在大约四分之一的人类肿瘤中,KRAS 突变会导致细胞不受控制的增殖进而引发癌症。在这项研究中,为了生成潜在新型 KRAS 抑制剂,研究人员提出了一种由量子变分生成模型 (QCBM) 和长短期记忆网络 (LSTM) 相结合的量子-经典混合框架模型,将量子计算与经典计算方法结合起来设计新分子。这项研究也得到了圣裘德儿童研究医院等多方研究机构的支持,相关研究成果以「Quantum-computing-enhanced algorithm unveils potential KRAS inhibitors」为题, 发表于 Nature Biotechnology 。

随着相关技术的突破,人类在突破病魔方面又迎来了新的想象空间和无限可能。


超神经HyperAI
1.3k 声望8.8k 粉丝