人工智能融合了计算机科学、数学、统计学、认知科学等多个学科,其发展高度依赖跨学科人才的培养。近年来,AI for Science 的崛起更是让大家看到了人工智能与基础学科深度融合的颠覆性潜力。现如今,许多杰出的学者正是凭借其多学科背景,推动科学研究迈向新的高度。例如:
* 华中科技大学黄宏副教授的学术经历横跨广播电视工程、信息工程、计算机科学,如今她专注于数据驱动的科学研究,包括数据挖掘、大数据分析、社交网络分析等;
* 上海人工智能实验室 AI for Science 中心青年研究员周东展从物理学起步,转向人工智能,现如今致力于 AI 在物质科学中的应用;
* 上海交通大学自然科学研究院的助理研究员周冰心,本科主修金融,硕士攻读数据分析,博士阶段专注于机器学习、深度学习,如今,她正在用深度学习解决生物领域的问题,如基于深度学习算法的蛋白质设计和改造。
黄宏:我们的研究应该能真正解决实际问题
作为华中科技大学的副教授、博士生/硕士生导师,黄宏副教授在数据挖掘、大数据分析等领域深耕多年,并以第一/通讯作者身份在 TKDE 、 TKDD 、 WWW 、 IJCAI 、 WSDM 等国际顶级期刊和会议上发表多篇论文。然而,她的科研之路并非一帆风顺。
黄宏副教授
回忆起读研时的挫败经历,黄宏副教授表示,她曾有一篇论文修改了 28 次,当改到第 25 次时,曾一度感到崩溃,后来,在朋友和导师的鼓励下,她冷静下来,重新审视论文,发现仍有许多细节需要完善,最终通过不断调整和打磨,成功发表。
在黄宏副教授看来:「做科研的关键,是要看你文章的 idea 是否真正解决了某一方面的问题,是否提出了合理的研究动机」。基于这一理念,她的研究主要侧重在两个方向:第一,在大数据分析、数据挖掘上进行方法的创新;第二,基于数据驱动进行应用开发,解决社会实际问题。
在方法创新领域,黄宏副教授团队主要集中于图神经网络与复杂系统的建模。她认为,在当下的大数据时代,为了更有效地挖掘数据价值,可以采用图结构来表示周围的事物,也就是将事物抽象建模为节点,并分析这些节点之间的关系,进而构建成图结构。
此外,她们团队也在做数据驱动的应用开发,比如社交网络分析。 2009-2012 年间,社交网络发展正值高峰期,微博、 Twitter 和 Facebook 等平台逐渐兴起,这也促使黄宏副教授团队利用这些平台的数据,分析网络结构的发展,开展用户推荐、舆情分析等工作。
「在新冠疫情期间,我们通过分析国际新闻媒体对中国的评论,研究外网对中国的态度变化,为理解外部立场提供了数据支撑」,黄宏副教授表示。
另一个有意思的研究案例是分析个人的社会经济地位,将其用于城市规划。「我们与电信部门合作获取用户的手机流量日志数据,通过分析用户的 GPS 定位,识别出用户的活动区域,并结合这些地区的房价信息,推测该地区在城市中的层级」。举个简单的例子,如果一个人频繁出现在金融区,可能意味着其社会经济地位较高,而常出现在学校或教育机构附近,则其身份可能为学生或教育工作者。基于此,研究人员可以综合评估个人的社会经济地位,从而为城市规划提供参考。
在工业智能化方面,黄宏副教授团队也在用人工智能技术,对工业设备进行故障自动识别与诊断,极大提高了设备维护的效率和准确性。
黄宏副教授总结:「你必须自己对你要做的研究感兴趣」。在她看来,科研本质上是一个枯燥且需要极大耐心的过程,但如果你真正对它感兴趣,就有自驱力坚持下去,「这也是我在招收学生时最看重的品质」。
周东展:让 AI 像科学家一样产生新的 idea
周东展博士也认同黄宏副教授的观点:「如果没有兴趣的话,确实很难做出比较好的工作」。在她看来,科研方向选择的关键点不在于判断该领域是否「卷」或者是「热门」,热门领域依旧可以做出行业典范成果,小众赛道也能去发现一些新的问题,我们应该突破舒适区,避免同质化研究,选择做出一些比较 solid 的成果。
目前,周东展博士的研究方向是将大语言模型、多模态模型等 AI 技术应用于物质科学。主要成果如下图所示:
去年 1 月,上海人工智能实验室推出了化学领域的大语言模型「书生·鉴原」,探索通用大模型与专业领域结合的前沿课题。化学语言模型在多项核心化学任务(分子和反应相关)上表现优异,多项指标超过 GPT-4 。考虑到化学研究中外部知识的重要性,团队为语言模型加入检索增强生成 (RAG) 机制,以减少模型幻觉问题。考虑到化学数据模态的多样性,团队进一步开发了多模态版本模型,该版本模型在分子识别和多模态化学推理等方面表现出色,多项指标超过 GPT-4v 。考虑到使用科学工具对于模型的重要性,团队开发了一个 Agent 工具包,集成超过 50 种化学工具,涵盖搜索、计算、分子和反应等,让模型更高效地执行相关任务。
在以上研究的基础上,实验室团队想要让 AI 承担更复杂的任务,而不是仅仅让大语言模型停留在问答层面,于是团队开始探讨 AI 是否能像科学家一样产生新的科研假设。
如上图所示,就是让 AI 在给定研究背景和问题的前提下,自动生成研究假设。例如,如果希望研究某种电池并寻找符合特定性质的材料和组分,只需要通过解耦研究背景与灵感,并结合 MOOSE-CHEM 系统及其内置的多智能体操作,就能够生成高质量的科学想法。
研究发现,科学假设的提出是一个复杂的推理过程,难以通过单一步骤直接生成。因此,团队对这一过程进行了拆解,通过迭代搜索灵感和假设,并对生成的假设进行进一步检索,确保最终形成的科学假设更加坚实且多样化。
与此同时,团队还构建了 Benchmark 评估生成的科学科学假设,如下图所示,研究发现,性能更优的模型具备更强的检索能力。
此外,研究还证实,在电化学相关任务中,模型能够生成具有可执行性的科学假设,而不仅是笼统的概念,比如,其科学假设包含材料的核心组成元素,如金属钌、氮掺杂等。目前,实验室团队已经在与相关课题组合作,希望推动该系统的落地应用,将其打造为一个真正的科研助手。
让 AI 生成科研 idea,甚至推动科学创新,是实验室团队正在努力的方向。回顾自身的学术经历,周东展坦言,其科研态度深受物理学家吴健雄的影响——「研究结果的偏差可能源自一个极小的细节问题」。因此,她始终强调,关注细节、深入推敲,是科研取得突破的关键。
周冰心:自研蛋白质模型在全球权威榜单上排名第一
在每个人的成长轨迹里,在每个人的成长轨迹里,可能都会有一位在学习、事业、乃至人生规划上产生潜移默化影响的「偶像」。谈及自己的「科研爱豆」,周冰心博士介绍道,「我之所以选择做科研,很大程度上是受到了我博导的影响」,在周冰心的印象中,她的博导是一个非常有责任感的人,认真、耐心、平易近人、秒回学生信息,甚至会逐字逐句地帮她改代码、一行行检查公式推导。「我希望我未来可以像我的导师一样,把培养学生视为一件非常重要的事」。
在科研方向的选择上面,周冰心认为,没有唯一的「正确道路」,关键在于找到最适合自己的路,并坚定地走下去。「还是要看你更愿意做什么,以及你的风险承受能力如何。只要自己开心,就没必要因为内卷或流行趋势而盲目跟风」。
关于团队近年来的一些研究,特别是 AI 在蛋白质改造方面的探索,周冰心也在本次直播中进行了分享。
在工业中,酶用于药物开发、疾病监测和塑料降解等。然而,天然蛋白质来源于自然界,有其特定的生活环境(如高压高温),未必符合工业需求,因此需通过改造提升其催化活性、热稳定性、结合亲和力和底物选择性等。
近年来,人工智能辅助蛋白质设计逐渐兴起。如下图所示,简单来讲,就是先让自监督模型学习大量蛋白质数据(序列、结构、进化信息),再拿少量和下游任务相关(预测蛋白质活性)的标签数据集去训练一个预测模型,根据具体需求(提升活性),对蛋白质的结构或序列进行重新优化或全新设计。
当改造完一条蛋白质序列后,可以将其转染到大肠杆菌、酵母等表达体系中,让生物学团队进行表达和纯化。纯化后的蛋白质会被用来测试其生物化学性质,如活性、稳定性和结合亲和力,这些特性取决于蛋白质的具体用途。在这个过程中,算法也可以提供帮助,比如预测给定蛋白质的表达性、溶解性和活性,最后只需要将算法推荐的蛋白质序列用于实验,就可以进一步节省成本。
如下图所示,周冰心团队的工作集中在蛋白质工程的各个模块上,包括但不限于从蛋白质结构推导序列、从功能推导序列等问题。「我们希望开发自己的工具,并探索如何将这些工具与后续的生物实验结合,以形成一个完整的循环,从而实现干实验(计算模拟)与湿实验(实际生物实验)之间的迭代优化」。
到目前为止,团队开发的工具在干、湿实验中均取得了优异成绩。例如,在全球的权威榜单 ProteinGym 上,其模型分别占据了第一和第二的位置。
此外,团队开发的生长激素,实现了全球首个 AI 设计蛋白质真正意义的放大生产(5,000 升)。他们还成功改造了 EPS-G7 酶,提高了其特异性和催化活性,并将生产成本降低 90%,打破了进口垄断限制。
除了单点或少数点位的改造,他们还整个生成了完整的蛋白质序列。例如,改造用于核酸剪切的 Ago 系列蛋白(高温存活),让其在常温下也能保持良好的活性,适用于核酸试剂盒中的剪切工作。
AI 从业者与 Science 从业者之间的最大问题是沟通
值得一提的是,由于周冰心博士所在领域具备高度交叉性,为了促进 AI 从业者与 Science 从业者的沟通交流,他们团队整理了大量数据、工具和下游任务检测模块,并将其整合成一个名为 VenusFactory 的工具库。
在周冰心博士看来,沟通能力在 AI 与科学领域的合作中至关重要。「我刚开始涉足生物方向的交叉工作时,许多生物学的合作伙伴想要跟我们合作,但我听不懂他们在说什么。现在,我可以基于自己的理解,将他们提出的科学问题转化为工程问题,寻找相应的算法来解决」。
周东展博士也认同这一观点。她强调:「与高校、研究所或企业合作时,确保双方在同一层面上理解问题非常关键。我们需要让科学领域的合作伙伴了解 AI 技术的现状,同时也要让技术团队明白最关键的问题是什么」。
黄宏副教授补充道,跨学科合作中掌握基础知识非常重要。她回忆起自己与清华大学社会学系罗家德教授团队的合作。在初期,社会学团队提出研究问题,技术团队提供数据分析支持并负责实验设计。随着时间的推移,技术团队逐渐掌握了社会学的基本知识,开始独立提出问题并与社会学团队讨论,这种思想碰撞催生了多项研究成果。
值得一提的是,近期正值 ICLR 2025 等顶会公布结果,同时也有多个重要会议仍未截稿,我们也借此机会让老师们分享了一下各自对 AI 顶会的投稿经验,如下所示:
1. 细读 Call for papers,明确不同顶会录取文章的要求,防止失去投稿机会。
2. 关注文章细节问题,格式正确、图要清晰、排版要好看。
3. 明确投稿截止时间,所有的实验至少提前一周全部完成保证论文的完整性,降低审稿人的质疑空间。
4. 研究问题,文章 idea 是否真的解决了某一方面的问题;研究动机是否合理。
5. 论文写作建议
* 论文提纲建议:第一,介绍背景。第二之前的研究是怎样的、存在什么问题。第三,我们的工作是怎样的,保证将你的 idea 传输给审稿人并让他信服;
* 此外,保证文章的逻辑性,每一个 Research question 和后面的实验验证需要环环相扣,自圆其说。
6. 关于拒稿:拒稿很正常,审稿人的喜好五花八门,可以试试多投几次。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。