SWE-Lancer:前沿大型语言模型能否从现实世界的自由软件工程项目中赚取 100 万美元?

主要观点:介绍了 SWE-Lancer 这一基准,包含来自 Upwork 的 1400 多个自由软件工程项目,总价值 100 万美元,涵盖独立工程任务和管理任务,独立任务通过经验丰富的软件工程师三重验证的端到端测试评分,管理决策根据原雇佣工程经理的选择评估,评估模型性能发现前沿模型仍无法解决多数任务,开源了统一的 Docker 镜像和公共评估分割 SWE-Lancer Diamond,希望通过将模型性能映射到货币价值,促进对 AI 模型开发经济影响的研究。
关键信息:1400 多个项目、价值 100 万美元、独立和管理任务、端到端测试、开源资源、多版本提交等。
重要细节:9 页正文加 24 页附录,涉及机器学习(cs.LG)和软件工程(cs.SE)领域,引用为[arXiv:2502.12115]及不同版本,有提交历史记录等。

阅读 10
0 条评论