雷切尔·托马斯,博士 - 深度学习获得荣耀,深度事实核查却被忽视

主要观点:深度学习很有魅力且回报高,用 Transformer 模型在 2200 万酶的数据集上训练评估后预测 450 种未知酶功能可在《自然通讯》发表,但其结果可能有大量错误。如《利用 Transformer 层的深度学习进行酶编码基因的功能注释》在未确知真相的酶数据集上有数百个错误预测,《当前机器学习模型在预测未表征蛋白质的酶功能方面的局限性》指出了这些错误。通过实际案例说明仅看结构相似性确定酶功能有局限性,需综合多种证据,同时强调需要领域专业知识来评估 AI 结果,当前激励机制过度关注华丽的 AI 解决方案而忽视质量结果,应增加对误差检查研究的激励。

关键信息:

  • 用 Transformer 模型预测酶功能及发表情况。
  • 《自然通讯》论文中模型的错误预测,如对 E. coli 中基因功能的错误判断等。
  • 微生物学家 de Crécy-Lagard 发现错误及相关研究。
  • 识别酶功能的两个不同问题及错误数据的传播。
  • AI 工作与数据检查工作的差异及领域专业知识的重要性。

重要细节:

  • 模型采用合理神经网络架构,在标准数据集上训练等。
  • 发现的错误包括预测结果已在数据库中、重复度高、与生物学事实不符等。
  • YciO 和 TsaC 的结构及功能关系等。
  • 相关论文中关于 AI 系统级联失败的原因等。
阅读 9
0 条评论