AlphaFold2 成功解决蛋白质结构预测挑战
蛋白质结构预测中心宣布,由DeepMind开发的AI系统AlphaFold2成功解决了蛋白质结构预测的挑战。AlphaFold2在全球距离测试(GDT)指标中获得了92.4的中位数得分,超过了传统方法的竞争阈值。
CASP14 实验与成果
该中心在新闻稿中宣布了这一成果,详细描述了第14届蛋白质结构预测技术关键评估(CASP14)的社区实验结果。这一挑战的灵感来源于生物化学家Christian Anfinsen在1972年诺贝尔奖演讲中提出的问题,即通过计算方法从氨基酸序列预测蛋白质的三维结构。AlphaFold2的GDT得分超过90,与X射线晶体学和冷冻电镜等实验技术相当,被认为已成功解决了这一挑战。
科学意义
UC Davis研究员兼CASP14联合组织者Andriy Kryshtafovych表示,快速准确地研究蛋白质结构有可能彻底改变生命科学。现在,单个蛋白质的结构预测问题已基本解决,科学家们可以进一步开发新方法,研究蛋白质复合体的结构,这些复合体是生命机制的重要组成部分。
蛋白质结构与预测挑战
DNA中的遗传密码是创建蛋白质分子的“食谱”,这些蛋白质分子由氨基酸序列组成。虽然这些序列是线性的,但最终的蛋白质会折叠成复杂的三维结构,这些结构对其生物功能至关重要。科学家们可以通过核磁共振、X射线晶体学和冷冻电镜等技术实验性地确定蛋白质结构,但这些方法需要昂贵的专用设备,且可能需要数年时间才能完成一个结构的测定。
1972年,Anfinsen提出蛋白质的结构应完全由其氨基酸序列决定。1994年,CASP作为一项双年评估成立,旨在评估从序列预测蛋白质结构的计算模型。参赛者会获得实验测定但未公开的蛋白质序列,预测结果使用GDT进行评估,GDT在0到100的范围内测量已知结构与预测结构之间的相似性,得分90或以上被认为是成功的。
AlphaFold2 的技术细节
AlphaFold2使用基于注意力的神经网络,将蛋白质结构建模为空间图。除了原始的氨基酸序列外,网络的输入还包括多序列比对(MSA)信息,该信息基于共同进化祖先的假设将多个不同序列联系起来。DeepMind使用蛋白质数据库中约17万条序列的公开数据集进行训练,训练在16个TPUv3上运行,耗时“几周”。
尽管AlphaFold2的完整架构尚未公布,但DeepMind在《自然》杂志上发表了一篇论文,描述了AlphaFold的上一版本,该版本在两年前的CASP13中以约60的GDT得分获得第一名;DeepMind还开源了该系统的一部分代码。
学术界的反应
生物学家Mohammed AlQuraishi在Twitter上描述了AlphaFold2的成果为“令人震惊的”。他在一篇详细的博客文章中也赞扬了系统的准确性,但批评了DeepMind的学术交流方式,认为其在CASP14上的演讲缺乏细节,与CASP13时的详细程度形成鲜明对比。
COVID-19 相关研究
除了参加CASP14竞赛外,DeepMind还使用AlphaFold2预测了导致COVID-19的SARS-CoV-2病毒的几种蛋白质结构。DeepMind公布了这些结果,后续实验证实了部分预测。DeepMind和其他机构的COVID-19蛋白质结构预测可在CASP网站上查阅。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。