关注前沿科技 量子位
芯片强者AMD最新推出科研AI,o1-preview竟成天选打工人?!
注意看,只需将科研idea和相关笔记一股脑丢给AI,研究报告甚至是代码就能立马出炉了。
这个AI系统代号“Agent Laboratory”,全程由LLM(大语言模型)驱动完成文献综述、实验,以及报告,一站式搞定科学研究。
对了,在GPT-4o、o1-mini以及o1-preview这几位科研助理当中,作者们发现o1-preview产出的研究成果最佳。
而且整体上,与现有方法相比,由AI生成的代码能够实现SOTA性能。
同时,如果人类在每个过程给予反馈,研究的整体质量也会大大提高。
总体而言,与之前的自主研究方法相比,Agent Laboratory将研究费用减少了84%。
Okk,这也再次印证了人们的预想,人类与AI协同将带来更具性价比的方式加速科研。
最后,我们也扒了扒论文作者们,结果意外发现7/9为华人面孔——
从文献到报告,AMD科研AI一站式搞定
先来看Agent Laboratory是如何工作的。
如图所示,主要有三个阶段:文献综述→实验→撰写报告,每一阶段都有不同的任务、工具和AI Agent角色(比如PhD、博士后Postdocto等)。
PhD Student负责文献综述
展开来说,在文献综述阶段,PhD Student这一角色负责主要执行。它利用arXiv API来检索相关论文,并进行三个动作:
- 一抓摘要:检索出与初始查询最相关的前20篇论文的摘要;
- 二抓单篇全文:对于某些具有重要参考价值的论文,提取其完整内容;
- 三添加论文:将经过筛选的论文摘要或全文纳入到文献综述中;
需要注意的是,最后一个过程并非一次性完成,而是一个迭代的过程。
换句话说,只有当通过add paper(添加论文)命令达到指定数量(N = max)的相关文本时,文献综述才会最终确定。
接下来进入实验环节。
如图所示,主要有四个过程:计划制定→数据准备→运行实验→结果解释。
PhD Student+Postdoc通过对话制定实验计划
简单说,根据综述结果和既定研究目标,PhD Student+Postdoc会通过对话来制定详细、可执行的实验计划。
计划一般包括具体实验步骤、选用何种机器学习模型、筛选合适的数据集以及规划实验的高级流程框架等关键要素。
在达成一致意见后,Postdoc这一角色会使用plan命令提交计划,此计划将作为后续所有实验相关子任务的重要行动指南。
ML Engineer用Python准备数据
然后ML Engineer会在下一阶段用Python来处理和准备实验所需的数据。
过程中,这一角色可以利用search HF命令在HuggingFace数据集中进行搜索,以获取合适的数据资源。
写完代码后,ML Engineer会先将代码通过Python编译器进行检查,确保没有编译错误。若存在问题,则会进行迭代修改,直至代码能够顺利运行且无错误,最终使用submit code命令提交经过验证的数据准备代码,为后续实验提供可靠的数据基础。
ML Engineer借助专用模块运行实验
搓搓手,下面正式进入实验运行环节。
概括而言,ML Engineer会借助mle-solver这一专门设计的模块,来实施和执行先前制定的实验计划。
mle-solver的工作流程如下:
- 命令执行
图(A)部分,从一组预先维护的高性能程序中采样出一个初始程序,在后续的迭代过程中,通过EDIT和REPLACE两种操作对程序进行不断优化。
EDIT允许在指定的代码行范围内,用新生成的代码替换原有代码,从而实现对程序功能的局部调整;REPLACE则更为激进,它会生成一个全新的Python文件,用于在需要对程序结构或整体逻辑进行重大改变时使用。
- 代码执行
图(B)部分,执行代码命令后,新程序会立即通过编译器进行检查,以识别和处理可能出现的运行时错误。
若程序成功编译,将根据预先设定的评估标准对其进行评分,并与现有的程序进行比较。若新程序得分更高,则会更新最优程序列表。
若代码未能通过编译,ML Engineer会尝试进行最多Nrep(在实验中设定为3次)的修复操作,若仍无法解决问题,则会放弃当前程序,重新选择或生成新的代码进行替换。
- 程序评分
图(C)部分,采用LLM奖励模型对成功编译的代码进行评分。
该模型会综合考虑研究计划的目标、生成的代码逻辑以及实际的实验输出结果等多方面因素,在0到1的范围内对程序进行量化评估。得分越高,表示程序与初始研究目标的契合度越高,能够更有效地实现预期功能。
- 自我反思
图(D)部分,无论代码执行结果是成功还是失败,mle-solver都会基于实验结果或遇到的错误信号进行自我反思。
如果程序编译失败,它会思考如何在后续的迭代中避免或解决类似的问题;若程序成功编译并获得评分,它会分析如何进一步提高程序的性能和得分,通过这种不断学习和改进的机制,确保系统能够持续提升生成代码的质量和稳定性。
- 性能稳定化
图(E)部分,为防止性能波动,mle-solver采用了两种关键机制。
一是顶级程序采样,通过维护一个高质量程序的集合,在执行命令前随机从中采样一个程序,这样既保证了程序的多样性,又能确保所选用的程序具有较高的质量基准;
二是批量并行化,在每个求解步骤中,同时进行多个代码修改操作,并选择其中性能最佳的修改结果来替换当前最优程序集合中得分最低的程序。
PhD Student+Postdoc共同讨论分析实验结果
执行结束后,PhD Student+Postdoc会深入探讨mle-solver生成的实验结果,结合自身的专业知识和前期的研究背景,对结果进行全面解读。
一旦双方认为结果合理且具备学术价值,Postdoc就会使用interpretation命令提交该解释,为后续的报告撰写阶段提供关键的内容基础。
PhD Student+Professor撰写完整报告
进入最后的报告撰写环节,PhD Student和Professor会通过一个名为 “论文求解器”(paper-solver)的专门模块完成任务。
需要提醒,paper - solver并非用来完全取代学术论文撰写流程,而是以一种人类可读的格式总结已完成的研究,以便使用 “Agent Laboratory” 的研究人员了解已取得的成果。
通常来说,其工作流程包括以下步骤:
- 初始报告框架生成:生成符合学术标准结构且含占位符、满足LaTeX编译和学术惯例的报告初始框架;
- arXiv研究:可按文献综述接口访问arXiv拓展文献资料完善报告(非强制但很有帮助);
- 编辑报告:用EDIT命令按照多因素对论文LaTeX代码行精确迭代编辑并编译验证,提升报告质量;
- 论文评审:用LLM Agent模拟NeurIPS流程多维度评估论文,测试准确性接近人类评审员;
- 完善论文:由三个评审Agent生成意见,PhD Student依此判断是否修订,必要时回溯前期环节修改至达标。
o1-preview科研能力最强
通过以上三个主要阶段,Agent Laboratory就完成了整个科研流程。
接下来,研究人员用GPT-4o、o1-mini以及o1-preview来评估实验质量、报告质量和有用性,这3个AI在没有人类任何参与的情况下完成了15篇论文。
然后普通人(人工审稿人)被要求根据以下五个问题对它们进行1—5评分,结果如图所示。
综合来看o1-preview对研究最有帮助, o1-mini的实验质量得分最高, 而GPT-4o全面垫底。
1、语言模型是否表现出认知偏差,比如确认偏差或锚定偏差?
2、图像Transformer相较于卷积网络,对像素噪声的敏感度是更高还是更低?
3、当被要求进行鉴别诊断时,语言模型在医学问答(MedQA)上的准确性会提高吗?
4、在多项选择题基准测试中,语言模型对词序敏感吗?
5、性别角色是否会影响语言模型回答数学问题的准确性?
然后作者们还探讨了人工审稿与自动审稿的区别有多大。
二者差异显著,且自动审稿倾向于高估论文分数。
具体来说,与平均水平的NeurIPS论文得分相比,自动审稿平均为6.1/10,人工审稿为3.8/10。
而在GitHub,作者们也透露了让研究效果更好的技巧。
- 撰写详细的笔记;
- 使用更强大的模型;
另外,如果用户丢失进度、断开互联网或子任务失败,可以使用「检查点恢复工作进度」功能。
甚至也支持切换到中文模式。
背后团队过半数是华人
最后介绍一下Agent Laboratory背后的作者们,他们几乎全是在去年加入AMD。
Samuel Schmidgall,目前是霍普金斯大学电气与计算机工程博士,也是DeepMind学生研究员。
从去年10月开始,他在AMD进行语言Agent方面的实习。
更早之前还在美国海军研究实验室探索机器人强化学习,以及在斯坦福大学研究心血管外科方面的语言&视觉大模型。
Yusheng Su,去年8月加入AMD GenAI团队的研究科学家,专注于模型数据、模型架构和训练效率优化。
他2019年毕业于政治大学(base台北),后获得清华大学CS博士学位(期间研究大模型预训练)。
更早之前,他还在微软云计算部门有过一段实习经历。
Ze Wang,去年5月加入AMD GenAI团队的应用研究科学家。
他2017年本科毕业于北航电气与电子工程专业,后分别于美国杜克大学和普渡大学读了电子与计算机工程PhD。
更早之前,还在Facebook AI和微软实习过。
Ximeng Sun,去年6月加入AMD的应用科学家。
她2018年毕业于密歇根大学拉克哈姆研究生院的计算机专业,后于波士顿大学取得CS博士学位。
加入AMD之前,她前后在IBM、谷歌和Meta进行了实习。
Jialian Wu (吴嘉濂),去年4月加入AMD GenAI团队的研究科学家。
他在2019年本硕毕业于天津大学电子工程专业,后于纽约州立大学布法罗分校读完CS博士。
加入AMD之前,他只在高通有过一段全职经历。更早之前则在亚马逊和微软实习过。
Xiaodong Yu(于晓栋),去年8月加入AMD GenAI团队的研究科学家,专注于知识检索/忠实度、长文本理解、数学推理以及LLM/VLM训练等。
他2015年毕业于上海交大电子与电气工程专业,后赴美国伊利诺伊大学香槟分校和宾大攻读硕博。
读书期间,他也在亚马逊、微软等机构实习过。
Jiang Liu,去年4月加入AMD GenAI团队的研究员,方向为开发通用AI模型。
他2019年本科毕业于清华大学自动化专业,同时也在五道口金融学院学习,后于约翰斯·霍普金斯大学读完电子与计算机专业博士。
加入AMD之前,他在AWS和微软进行了大语言模型方面的实习。
Zicheng Liu,去年年初入职AMD担任高级工程总监,研究兴趣为视觉语言学习、3D人体和手部重建、动态卷积和人类活动识别。
在这之前,他在微软工作了27年,主要负责管理计算机视觉科学组。
他还是多个国际会议的技术委员会成员,而且是《视觉传达与图像表示》杂志主编等。
Emad Barsoum,负责AMD生成式AI方面的副总裁,加入AMD 1年多。
曾在微软担任团队工程经理/架构师,共同参与创建了ONNX标准。这是一个开放神经网络格式交换计划,在2017年由微软和Facebook共同发起,它使得数据科学家和开发者可以将不同的深度神经网络框架开发的模型,直接部署到上亿的Windows设备中。
加入AMD之前,他也在芯片制造公司Cerebras负责领导AI团队,主要是训练大语言模型和视觉模型。
论文: https://arxiv.org/pdf/2501.04227 代码: https://github.com/SamuelSchm...
— 完 —
量子位年度AI主题策划正在征集中!
欢迎投稿专题 一千零一个AI应用,365行AI落地方案
或与我们分享你在寻找的AI产品,或发现的AI新动向
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。