5 代理持续集成/持续部署评估最佳实践

主要观点：将可靠性构建到生产应用中虽不引人注目，但评估对成功至关重要，尤其是测试系统变化的影响，因代理具有非确定性，传统测试框架不适用，需重新思考 CI/CD。文中以故障排除代理为例，介绍其评估套件及 5 个最佳实践，包括软失败、自动重试、解释、评估评估者、本地化测试和保守触发等，还分析了导致评估失败的因素，如数据、系统、代码和模型方面的变化，最后提及生产中的监控是当前重点。

关键信息：

评估对确保代理系统可靠性关键，如推出故障排除代理需确保变更不影响性能。
评估套件包含语义距离、接地性、工具使用等三类问题，采用多种评估方法。
5 个最佳实践：软失败（0 - 1 评分，0.5 以下硬失败，0.8 以上通过，0.5 - 0.8 为软失败）、自动重试（约十分之一测试有假结果可触发重试）、解释（让 LLM 法官提供解释以增强信任和加速调试）、评估评估者（多次测试，差异大则修订或删除不稳定测试）、本地化测试和保守触发（节省时间和金钱，通常本地化测试，特定情况下触发评估）。
导致评估失败的因素包括数据（如市场变化、上下文缺失）、系统（工具及编排变化）、代码（提示和输出格式更新）、模型（平台模型版本及使用变更）方面的变化。
生产中的监控比评估更具挑战性， stakes 更高。

重要细节：

利用 LLM-as-judge 评估语义距离，适当使用确定性测试。
嵌入式向量和余弦相似度测试在评估语义距离时效果不佳。
对于接地性检查，有特定的行为标准。
测试成本较高，目前仅在特定情况下触发评估。