SWE-bench 排行榜

主要观点:列举了多种不同的模型,包括 Llama 系列、Qwen 系列、Claude 系列、DeepSeek 系列、Gemini 系列、GPT 系列等,以及多个组织相关的信息,还提到了系统的尝试次数。
关键信息:列举了众多具体的模型名称,如 Llama 3.1、Llama3-SWE-RL-70B 等;提及了多个组织,如 AWS、Agentica 等;提到系统尝试次数为 1 和 2+。
重要细节:每个模型名称都有其特定的标识和参数,不同组织在模型开发等方面有所不同,系统的尝试次数可能反映了模型的测试或使用情况。

阅读 165
0 条评论