SWE-Lancer：前沿大型语言模型能否从现实世界的自由软件工程项目中赚取 100 万美元？

发布于 2025-02-18

主要观点：介绍了 SWE-Lancer 这一基准，包含来自 Upwork 的 1400 多个自由软件工程项目，总价值 100 万美元，涵盖独立工程任务和管理任务，独立任务通过经验丰富的软件工程师三重验证的端到端测试评分，管理决策根据原雇佣工程经理的选择评估，评估模型性能发现前沿模型仍无法解决多数任务，开源了统一的 Docker 镜像和公共评估分割 SWE-Lancer Diamond，希望通过将模型性能映射到货币价值，促进对 AI 模型开发经济影响的研究。
关键信息：1400 多个项目、价值 100 万美元、独立和管理任务、端到端测试、开源资源、多版本提交等。
重要细节：9 页正文加 24 页附录，涉及机器学习（cs.LG）和软件工程（cs.SE）领域，引用为[arXiv:2502.12115]及不同版本，有提交历史记录等。

阅读 43