从红色到解决方案：我如何使用人工智能来诊断和推荐修复不稳定测试的方法

发布于 2025-08-13

主要观点：间歇性测试失败即“不稳定测试”会影响 CI/CD 管道，浪费时间和资源，此文介绍构建轻量级 AI 驱动的助手来计算不稳定测试率、诊断根本原因并提供修复建议。
关键信息：

行业数据表明不稳定测试占所有测试失败的近 5%，每月耗费组织 2%的开发时间。
构建的流水线使用开源和低代码组件，包括读取测试历史的 n8n、计算不稳定率的代码节点、AI 诊断的 LLM 链、保存建议的 n8n 写文件和仪表盘集成的 Flask。
以最后 10 次运行的滑动窗口计算不稳定率，若超过 30%则标记为不稳定，LLM 链能根据测试元数据、错误日志等给出诊断和修复建议。
将 LLM 输出写入 Markdown 文件并在仪表盘显示，方便开发者采取行动，但该系统存在局限性，如不能诊断所有失败和一些细微测试错误易遗漏。
重要细节：
计算不稳定率的 JavaScript 代码片段通过切片最后 10 次运行并计算失败次数与总次数的比例来确定。
LLM 系统提示让其作为 QA 专家根据测试失败日志等给出分析和修复建议。
仪表盘新增/recommendation 路由来显示 LLM 的分析和建议，格式更便于使用。
参考文献包括相关研究论文和报告等。

阅读 107