主要观点:RepoQA 旨在创建一系列长上下文代码理解任务以挑战聊天/指令模型,具有多语言、应用驱动等特点,包括搜索针函数(SNF)任务等,还在开发中,会有更多类型的 QA 任务推出;介绍了 SNF 任务的概述、在 16K 代码上下文中的基准配置、工作原理(包括数据集筛选步骤等),并解答了常见问题(如与其他针测试的区别、非确定性及已知限制等),部分计算由 Google DeepMind 和 Weights & Biases 提供。
关键信息:
- 涵盖 50 个高质量来自 5 种编程语言的仓库。
- SNF 任务要求模型从给定长代码片段和函数描述中检索 10 个针函数,通过 BLEU 评分等方法评估相似度。
- 代码提示固定为 16K 令牌,可通过动态 RoPE 缩放或无缩放扩展模型。
- 数据集筛选包括选择许可仓库、收集代码内容等四步。
- 解答了关于 SNF 与其他针测试的区别、非确定性及描述过长等问题。
重要细节: - 提供了使用 RepoQA 的示例代码,支持 5 种后端和多种模型。
- 引用了相关论文信息,包括作者、书名、会议等。
- 提到部分计算由 Google DeepMind 和 Weights & Biases 提供。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。