最近 AI 在生物学领域可谓是大放异彩。斯坦福大学联合美国 Arc 研究所 (Arc Institute) 的研究团队提出了一种基因组基础模型 Evo ,其能够在 DNA、RNA 和蛋白质的多模态任务中实现零样本预测和高精度生成。
相关研究以「Sequence modeling and design from molecular to genome scale with Evo」为题,以封面文章的形式发表在 Science 上。
论文地址:
https://www.science.org/doi/10.1126/science.ado9336
作为论文的第一作者,Eric Nguyen 连发多条动态介绍 Evo 这一成果 ,并多次感谢团队研究成员,更是直言「 能与这样一个了不起的团队合作,真是荣幸!」
据论文介绍, Evo 使用 StripedHyena 架构,在大型基因组数据集上进行训练,该数据集包含了 8 万多个细菌和古细菌基因组,以及数百万个预测的噬菌体和质粒序列,涵盖了 3 千亿个核苷酸 token,能够生成长度超过 1 兆碱基的具有合理基因组架构的 DNA 序列。
此外,Evo 参数规模达 70 亿,最大上下文长度可达 131,072 个 token,可以揭示编码序列和非编码序列之间错综复杂的共同进化,并设计出复杂的生物系统,如 CRISPR-Cas 复合物和 IS200 和 IS605 转座子。
总而言之,Evo 预测、生成和设计整个基因组序列的能力,不仅为生命科学提供新的理论支撑,还有望被应用于基因编辑、药物发现、疾病诊断、农业等领域,助力多领域的突破性成果研发。
不少网友对 Evo 的发布表示震撼,更是对该模型的具体应用充满了期待。
为了让大家第一时间体验 Evo 模型的强大功能,HyperAI超神经教程版块现已上线「Evo:从分子到基因组规模的预测和生成」,无需输入任何命令,一键克隆即可快速体验!
教程链接:
https://go.hyper.ai/JpdUS
Demo 运行
- 登录 hyper.ai,在「教程」页面,选择「Evo:从分子到基因组规模的预测和生成」,点击「在线运行此教程」。
- 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
- 点击右下角「下一步:选择算力」。
- 页面跳转后,选择「NVIDIA RTX A6000,并根据自身需求选择「按量付费」或者「包日/周/月」,选择「PyTorch」镜像后,点击「下一步:审核」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!
HyperAI超神经专属邀请链接(直接复制到浏览器打开):
https://openbayes.com/console/signup?r=Ada0322_QZy7
- 确认无误后,点击「继续执行」,等待分配资源,首次克隆需等待 2 分钟左右的时间。
- 当状态变为「运行中」后,点击「打开工作空间」选项。
- 进入 Jupyter 工作空间后,双击点开「README」文件,即可正式进入 Evo 模型运行页面。
效果演示
- 进入 Evo 模型运行页面后,所有参数为默认模式。下滑鼠标到 「2.启动模型并输入相关参数」,即可按照自己的需求调整 prompt 参数值。需要注意的是,prompt 的默认值为 「ACGT」,这代表了一段由 DNA 碱基对 (A、C、G、T) 组成的初始序列。你可以根据需要修改这个值来生成不同的 DNA 序列。
- 例如,将 prompt 默认值改为 AGCT,当调整完默认参数值后,点击「重启并运行所有单元格」选项,选择「Restart」进行运行。
- 稍等片刻,当 [*] 号变为数字时,即表示运行完成。在「2.启动模型并输入相关参数」最底部,即可看到生成的序列。
- 此外, Evo 模型还可以对生成的 DNA 序列进行分析,学习编码序列和非编码序列的共同进化联系。它还能从 DNA 序列中预测蛋白编码基因 (protein-coding genes),对 RNA 系统进行编码设计,从而预测生成的蛋白质折叠结构,并最终以图像的形式呈现。
我们建立了「Stable Diffusion 教程交流群」,欢迎小伙伴们入群探讨各类技术问题、分享应用效果~
添加神经星星微信(微信号:Hyperai01),备注「SD 教程交流群」,即可加入群聊。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。