InstaDeep与NVIDIA开源基因组学基础模型Nucleotide Transformers
主要观点
InstaDeep与NVIDIA合作开源了Nucleotide Transformers (NT),这是一组用于基因组学数据的基础模型。NT模型在多项基因组学基准测试中表现优异,特别是在启动子和剪接任务上。
关键信息
- 模型规模:最大的NT模型Multispecies 2.5B包含25亿个参数,训练数据涵盖850个物种。
- 架构与训练:NT采用仅编码器的Transformer架构,使用与BERT相同的掩码语言模型目标进行预训练。
- 应用方式:预训练的NT模型可用于生成嵌入特征或通过替换语言模型头部进行特定任务的微调。
- 性能比较:NT在18个下游任务中表现最佳,特别是在启动子和剪接任务上优于其他模型。
重要细节
- 多物种数据的重要性:Multispecies 2.5B模型的表现优于仅使用人类数据训练的模型,表明多物种数据对理解人类基因组至关重要。
- 零样本学习能力:NT展示了零样本学习能力,能够预测基因突变的影响,为理解疾病机制提供了新工具。
- 与其他模型的比较:NT在增强子预测和某些染色质任务上表现不及Enformer,但在整体任务上表现最佳,且在所有任务上优于HyenaDNA。
- 突变严重性预测:通过计算嵌入空间中的余弦距离,NT在预测基因突变严重性方面表现出中等相关性。
社区反应
- Hacker News讨论:InstaDeep员工BioGeek在Hacker News上讨论了该模型的应用案例,并提到了之前的ChatNT模型。
- 用户反馈:有用户表示这些模型能够学习到DNA中重要功能的位置及其功能,尽管目前还非常近似,但这是前所未有的进展。
资源获取
- 代码:Nucleotide Transformers的代码可在GitHub上获取。
- 模型文件:模型文件可从Huggingface下载。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。