从红色到解决方案:我如何使用人工智能来诊断和推荐修复不稳定测试的方法

主要观点:间歇性测试失败即“不稳定测试”会影响 CI/CD 管道,浪费时间和资源,此文介绍构建轻量级 AI 驱动的助手来计算不稳定测试率、诊断根本原因并提供修复建议。
关键信息

  • 行业数据表明不稳定测试占所有测试失败的近 5%,每月耗费组织 2%的开发时间。
  • 构建的流水线使用开源和低代码组件,包括读取测试历史的 n8n、计算不稳定率的代码节点、AI 诊断的 LLM 链、保存建议的 n8n 写文件和仪表盘集成的 Flask。
  • 以最后 10 次运行的滑动窗口计算不稳定率,若超过 30%则标记为不稳定,LLM 链能根据测试元数据、错误日志等给出诊断和修复建议。
  • 将 LLM 输出写入 Markdown 文件并在仪表盘显示,方便开发者采取行动,但该系统存在局限性,如不能诊断所有失败和一些细微测试错误易遗漏。
    重要细节
  • 计算不稳定率的 JavaScript 代码片段通过切片最后 10 次运行并计算失败次数与总次数的比例来确定。
  • LLM 系统提示让其作为 QA 专家根据测试失败日志等给出分析和修复建议。
  • 仪表盘新增/recommendation 路由来显示 LLM 的分析和建议,格式更便于使用。
  • 参考文献包括相关研究论文和报告等。
阅读 35
0 条评论