用于评估长上下文代码理解的 RepoQA

发布于 2025-07-24

主要观点：RepoQA 旨在创建一系列长上下文代码理解任务以挑战聊天/指令模型，具有多语言、应用驱动等特点，包括搜索针函数（SNF）任务等，还在开发中，会有更多类型的 QA 任务推出；介绍了 SNF 任务的概述、在 16K 代码上下文中的基准配置、工作原理（包括数据集筛选步骤等），并解答了常见问题（如与其他针测试的区别、非确定性及已知限制等），部分计算由 Google DeepMind 和 Weights & Biases 提供。
关键信息：

涵盖 50 个高质量来自 5 种编程语言的仓库。
SNF 任务要求模型从给定长代码片段和函数描述中检索 10 个针函数，通过 BLEU 评分等方法评估相似度。
代码提示固定为 16K 令牌，可通过动态 RoPE 缩放或无缩放扩展模型。
数据集筛选包括选择许可仓库、收集代码内容等四步。
解答了关于 SNF 与其他针测试的区别、非确定性及描述过长等问题。
重要细节：
提供了使用 RepoQA 的示例代码，支持 5 种后端和多种模型。
引用了相关论文信息，包括作者、书名、会议等。
提到部分计算由 Google DeepMind 和 Weights & Biases 提供。

阅读 305