SWE-bench 排行榜

发布于 2025-07-24

主要观点：列举了多种不同的模型，包括 Llama 系列、Qwen 系列、Claude 系列、DeepSeek 系列、Gemini 系列、GPT 系列等，以及多个组织相关的信息，还提到了系统的尝试次数。
关键信息：列举了众多具体的模型名称，如 Llama 3.1、Llama3-SWE-RL-70B 等；提及了多个组织，如 AWS、Agentica 等；提到系统尝试次数为 1 和 2+。
重要细节：每个模型名称都有其特定的标识和参数，不同组织在模型开发等方面有所不同，系统的尝试次数可能反映了模型的测试或使用情况。

SWE-bench Leaderboards

https://www.swebench.com/

阅读 1.3k

0 条评论

得票最新

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。