Meta AI 发布 ESMFold:基于语言模型的蛋白质结构预测工具
Meta AI 研究团队近日宣布推出 ESMFold,这是一种基于基因序列预测蛋白质结构的 AI 模型。ESMFold 基于一个拥有 150 亿参数的 Transformer 模型构建,在保持与当前最先进模型相当准确性的同时,推理速度大幅提升。
主要特点与技术细节
模型架构:
- ESMFold 使用了基于 Transformer 的语言模型 ESM-2,这是其早期 Evolutionary Scale Modeling (ESM) 模型的升级版本。ESM-2 能够学习蛋白质序列中氨基酸对之间的相互作用。
- 与 AlphaFold2 不同,ESMFold 不需要依赖外部序列比对数据库,仅需输入氨基酸序列即可预测蛋白质结构,从而简化了模型架构并显著提升了运行效率。
性能表现:
- ESMFold 的推理速度比 AlphaFold2 快 6 到 60 倍。Meta 团队使用 ESMFold 在不到一天的时间内预测了 100 万个蛋白质序列的结构。
- 在 CAMEO 和 CASP14 测试数据集上,ESMFold 的模板建模分数(TM-score)分别为 83 和 68,略低于 AlphaFold2(88 和 84)和 RoseTTAFold(82 和 81)。但研究表明,ESMFold 的 TM-score 与其语言模型的困惑度高度相关,表明提升语言模型是提高单序列结构预测精度的关键。
应用价值:
- ESMFold 的快速和准确预测能力有助于大规模新型序列的结构和功能分析。
- 在短时间内获得数百万个预测结构,可以帮助揭示天然蛋白质的多样性和广度,并促进新蛋白质结构和功能的发现。
背景与比较
蛋白质结构预测的重要性:
- DNA 中的遗传密码是生成蛋白质分子的“配方”。尽管氨基酸序列是线性的,但蛋白质会折叠成复杂的 3D 结构,这些结构对其生物功能至关重要。
- 传统的实验方法需要昂贵的设备,且可能耗时数年。2020 年,DeepMind 的 AlphaFold2 解决了蛋白质结构预测的长期挑战,大幅提升了预测速度和准确性。
与 AlphaFold2 的对比:
- AlphaFold2 需要输入氨基酸序列和多重序列比对(MSA)信息,这依赖于外部数据库,成为性能瓶颈。
- ESMFold 仅需氨基酸序列,通过语言模型直接预测结构,显著简化了流程并提升了效率。
研究历程与未来计划
Meta 在基因组学语言模型的研究:
- Meta 和其他机构多年来一直在研究语言模型在基因组学中的应用。2020 年,Meta 开源了 ESM 语言模型,用于计算蛋白质序列的嵌入表示。
- 2021 年,DeepMind 发布了 AlphaFold2,并公开了几乎所有已知蛋白质的结构预测。
未来计划:
- 目前,ESMFold 能够处理长度不超过 3000 的蛋白质序列,但计算能力仍是一个限制因素。
- Meta 尚未开源 ESMFold,但研究人员表示未来会公开模型。
总结
ESMFold 通过创新的语言模型技术,在蛋白质结构预测领域取得了显著进展,尤其是在推理速度和效率方面。其简化的工作流程和快速预测能力为大规模蛋白质研究提供了新的工具,未来有望在生物学研究和药物开发中发挥重要作用。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。