Meta 推出 AutoPatchBench 以评估 LLM 代理在安全修复方面的表现

主要观点:AutoPatchBench 是用于评估和比较 LLM 代理自动修补 C/C++原生代码中安全漏洞有效性的标准化基准。
关键信息

  • 由用于评估 LLM 生成安全补丁能力的测试集合组成,基于 ARVO 数据集,保留 136 个样本并创建 113 个 AutoPatchBench-Lite 样本子集。
  • 聚焦于通过模糊测试发现的漏洞的特定挑战,模糊测试用于发现安全漏洞,解决漏洞需分析堆栈跟踪等。
  • 关键在于确保修补后的程序保持预期行为,AutoPatchBench 应用特定技术评估,Meta 还发布了更适合早期开发工具的 AutoPatchBench-Lite。
  • 是 CyberSecEval 4 的一部分,Meta 开源了参考实现供社区使用。
    重要细节
  • AutoPatchBench 与一般软件工程代理基准不同,专注于模糊测试发现的漏洞。
  • ARVO 数据集包含 5000 多个真实世界 C/C++漏洞,每个漏洞有触发输入和开发者编写的补丁。
  • 模糊测试通过达到人类测试难以遇到的边缘情况来发现漏洞,OpenSSF 指出其挑战在于编写有效模糊器。
  • 谷歌在其技术报告和 GITS-Eval 基准中展示了 AI 系统在解决漏洞方面的帮助。
  • AutoPatchBench 应用特定技术评估补丁是否使程序状态与补丁函数返回后的真实程序相同。
阅读 7
0 条评论