GSO：用于评估 SWE 代理的具有挑战性的软件优化任务

发布于 2025-08-03

主要观点：开发高性能软件是复杂任务需专业知识，引入 GSO 基准用于评估语言模型在开发高性能软件方面的能力，开发自动化管道生成并执行性能测试，分析代码库提交历史以确定 10 个代码库中的 102 个具有挑战性的优化任务，通过提供代码库和性能测试让代理改进运行时效率并与专家开发者优化对比，定量评估显示领先的 SWE-Agents 成功率低且推理时间扩展后改进有限，定性分析确定关键失败模式，最后发布基准代码和相关物品以促进未来研究。
关键信息：介绍 GSO 基准及相关内容，包括提交历史（v1 和 v2 版本，发布时间及文件大小），提及相关网站、学科领域、引用方式及 DOI 信息等。
重要细节：自动化管道可生成执行性能测试，涉及 10 个代码库和多种编程语言，代理需依据精确规格改进运行时效率，定量评估成功率低及定性分析的失败模式等。

阅读 45