头图

北京时间5月2日凌晨,百度生物计算领域取得重磅突破,名为 LinearDesign 的研究成果成功刊登在国际顶级学术期刊《自然》杂志上。这是中国科技企业首次以第一完成单位的身份发表论文于《自然》杂志,论文还被获准成为少有的 Accelerated Article Preview (AAP) 加速发表论文,中国科技企业成果在全球科研领域得到高度认可。

那么,LinearDesign 究竟解决了什么问题,得以登上权威学术期刊 Nature?它又是通过什么技术来实现的呢?今天,我们就来深度解读一下 LinearDesign 算法。

图片

背景知识:mRNA 以及 mRNA 疫苗

想弄明白 LinearDesign,首先需要了解 mRNA 以及 mRNA 疫苗。根据中心法则,DNA 转录生成 mRNA,mRNA 翻译产生蛋白质; mRNA 是遗传信息从 DNA 传递到蛋白质的桥梁。同时,人们也可以通过人工合成 mRNA 并转染到细胞内,来生产蛋白质;mRNA 疫苗正是基于此原理。疫苗简单来说是利用特定抗原(蛋白质)刺激免疫系统,产生特异性抗体,当病毒入侵时,这些抗体会消灭病毒,保护人体。而 mRNA 疫苗由众多包裹在脂质体颗粒内的 mRNA 分子构成,进入人体后,这些 mRNA 分子翻译为抗原蛋白,并产生免疫反应,形成保护力。

新冠 mRNA 疫苗,是第一款成功上市的 mRNA 疫苗。mRNA 疫苗和药物也被认为是下一代药物,被业界寄予厚望。然而 mRNA 分子不稳定这一先天不足,仍极大的限制了 mRNA 新疫苗和药物研发。mRNA 分子在存储和分发过程中也容易降解,需要依靠冷链技术,成本高,也限制了其在发展中国家的应用;mRNA 分子在体内的半衰期很短,导致药物效力较低。我们研发的 LinerDesign 算法,就是通过 AI 算法,设计优化 mRNA 药物分子序列,提升其稳定性和有效性。

LinearDesign 是 mRNA 序列设计算法

那么什么是 mRNA 序列设计?具体来说,mRNA 编码区域上的每3个碱基形成一个密码子(codon),一个密码子翻译生成一个蛋白质序列上的氨基酸。但因为密码子种类(64种)多于氨基酸种类(20种),一个氨基酸可以由多个不同的密码子翻译产生。比如亮氨酸(leucine)就可以由6种不同的密码子翻译产生。因此,不同的 mRNA 序列,可以生成同一个蛋白质序列。以新冠 mRNA 疫苗为例,理论上共有2.4´10632个不同的 mRNA 序列都可以翻译成抗原S蛋白。而这些 mRNA 序列在稳定性、蛋白表达水平、免疫原性上差异巨大。而 mRNA 序列设计,就是要从海量的 mRNA 候选序列中,找出最优的 mRNA 疫苗序列。下图给出了新冠 mRNA 疫苗设计的例子。图1a 展示了2.4´10632mRNA 候选序列是怎样计算出来的,图1b 展示了野生型序列(左侧)和 LinearDesign 算法设计的序列(右侧)在稳定性上的巨大区别。

图片' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
论文中 图1a&b

传统 mRNA 疫苗序列设计,主要采用一种叫做密码子优化(codon optimization)算法,即尽量选择密码子适应指数(codon adaptation index,CAI)高的密码子,这一类密码子通常被认为能够提升蛋白质翻译效率。下图1d 中的粉色箭头指示了这种设计的优化方向,Moderna(☆)、辉瑞/BioNTech(○)、CureVac(▷)、斯微(H ◇)等 mRNA 疫苗公司的序列本质上都是采用这类设计方法,也都具有较高的 CAI 值(0.9以上)。而我们的 LinearDesign 算法,则进行了两个方向上的联合优化:一是结构稳定性(图1d, 横轴),以最小自由能(minimum free energy)为优化指标,二是翻译效率(图1d, 纵轴),以密码子适应指数为优化指标。我们的设计方法,探索了传统 codon optimization 方法所无法覆盖的区域(下图1d 虚线左侧,MFE<-1400 kcal/mol 的区域),能够设计出更稳定、效力更高的疫苗序列。比如在新冠 mRNA 疫苗实验中,我们设计的序列比斯微采用 codon optimization 方法设计的序列在稳定性(mRNA 分子半衰期)最多提升5倍,48小时蛋白质表达最多提升3倍,抗体反应最多提升128倍。引用论文中的一句话:“our work turns the enormous search space into a blessing (freedom of design) rather than an obstacle. ”

图片
论文中 图1d

LinearDesign 算法核心: 网格解析(Lattice Parsing)

网格解析(Lattice Parsing)是一个来自自然语言处理(NLP)技术的概念,是对传统 Parsing 方法的拓展。通常 Parsing 任务是给定一个句子的文本(本质是一个序列),利用语法规则(language grammar),得到“主谓宾定状补”这样的语法结构。如果输入不是文本,而是一段语音,情况会怎么样呢?我们知道,因为“同音词”、“近音词”的存在,相比确定性的文本,处理语音时会遇到“模糊性”的问题。解决方法是把这些近似的词组成一个网络图(word lattice),然后将语法规则用在这个网格上做解析,这就叫做网格解析(Lattice Parsing),网格中最符合语法规则的一条路径(对应一个句子)就被识别为语音输入对应的语句文本。见图1c 左侧。

mRNA 序列设计问题跟上述 NLP 领域的问题有相似之处。mRNA 序列设计问题的输入是一个蛋白质序列,而这个序列对应了海量 mRNA 候选序列。将这些候选序列转换成一个网络图(我们称之为 mRNA DFA),根据 RNA 折叠语法规则(RNA folding grammar)和密码子使用偏好(codon usage),在 mRNA 网络图上做网格解析(Lattice Parsing),就能找到最优的 mRNA 序列。引用论文里的一句话:“we provide a simple and unexpected solution to this hard [mRNA design] problem by reducing it to a classical problem in computational linguistics, where finding the optimal mRNA sequence is akin to identifying the most likely sentence among similar sounding alternatives.”

图片
论文中 图1c

如何解读论文中的生物实验结果

在论文中,展示了两款 mRNA 疫苗实验结果:COVID-19 mRNA 疫苗和带状疱疹(VZV)mRNA 疫苗。LinearDesign 设计的序列在稳定性、蛋白表达、抗体水平等各项指标上均相比疫苗公司的基准序列有显著提升,用生物实验数据验证了它的普适性和实用性。论文中图4给出了 COVID-19 mRNA 疫苗的主要实验结果。论文最重要的结论是 LinearDesign 设计的疫苗序列抗体反应水平显著提升。疫苗的作用原理简单来说是利用特定抗原刺激免疫系统,产生特异性抗体;当病毒入侵时,这些抗体会消灭病毒,保护人体。因此,抗体反应水平是衡量疫苗有效性的一个重要指标,通常来说,抗体反应水平高则疫苗具有更强的保护力。在头对头比较中,相比于疫苗公司设计的 COVID-19疫苗序列,LinearDesign 算法设计的疫苗序列在抗体反应水平上提升128倍。这表明了在其他条件不变的情况下,我们所设计的疫苗序列具备更强的保护力。同时论文中也提到,LinearDesign 可以广泛用于包括传染性疫苗、癌症疫苗、单克隆抗体在内的药物研发。简单来说,LinearDesign 可以为相关学术研究和药物研发提供更好的初始设计序列,加速研发过程,降低成本。百度也已经对外提供 LinearDesign云服务,助力科学研究和药物研发。

图片
论文中 图4

理论上,所有的蛋白药物,都可以通过递送 mRNA 药物,在体内翻译成蛋白来发挥药效。而 LinearDesign 可以广泛用于包括传染性疫苗、癌症疫苗、单克隆抗体在内的药物研发。正如论文中展示的,LinearDesign 算法可以设计出更稳定、更高效的 mRNA 序列,这些序列是传统算法、甚至人类专家都无法设计出来的。实际上,早在2021年,百度就与全球领先的生物制药公司赛诺菲签订协议,赛诺菲将利用百度 LinearDesign 平台,优化 mRNA 疫苗和药物的设计研发,用于新冠肺炎等人类疾病的治疗与预防。未来 LinearDesign 算法将大规模应用于药物研发管线上。


飞桨PaddlePaddle
30 声望34 粉丝

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,集深度学习核心训练和推理框架、基础模型库、端到端开发套件、丰富的工具组件于一体,是中国首个自主研发、功能丰富、开源开放的产业级深度...