用于评估长上下文代码理解的 RepoQA

主要观点:RepoQA 旨在创建一系列长上下文代码理解任务以挑战聊天/指令模型,具有多语言、应用驱动等特点,包括搜索针函数(SNF)任务等,还在开发中,会有更多类型的 QA 任务推出;介绍了 SNF 任务的概述、在 16K 代码上下文中的基准配置、工作原理(包括数据集筛选步骤等),并解答了常见问题(如与其他针测试的区别、非确定性及已知限制等),部分计算由 Google DeepMind 和 Weights & Biases 提供。
关键信息

  • 涵盖 50 个高质量来自 5 种编程语言的仓库。
  • SNF 任务要求模型从给定长代码片段和函数描述中检索 10 个针函数,通过 BLEU 评分等方法评估相似度。
  • 代码提示固定为 16K 令牌,可通过动态 RoPE 缩放或无缩放扩展模型。
  • 数据集筛选包括选择许可仓库、收集代码内容等四步。
  • 解答了关于 SNF 与其他针测试的区别、非确定性及描述过长等问题。
    重要细节
  • 提供了使用 RepoQA 的示例代码,支持 5 种后端和多种模型。
  • 引用了相关论文信息,包括作者、书名、会议等。
  • 提到部分计算由 Google DeepMind 和 Weights & Biases 提供。
阅读 47
0 条评论