5 代理持续集成/持续部署评估最佳实践

主要观点:将可靠性构建到生产应用中虽不引人注目,但评估对成功至关重要,尤其是测试系统变化的影响,因代理具有非确定性,传统测试框架不适用,需重新思考 CI/CD。文中以故障排除代理为例,介绍其评估套件及 5 个最佳实践,包括软失败、自动重试、解释、评估评估者、本地化测试和保守触发等,还分析了导致评估失败的因素,如数据、系统、代码和模型方面的变化,最后提及生产中的监控是当前重点。

关键信息:

  • 评估对确保代理系统可靠性关键,如推出故障排除代理需确保变更不影响性能。
  • 评估套件包含语义距离、接地性、工具使用等三类问题,采用多种评估方法。
  • 5 个最佳实践:软失败(0 - 1 评分,0.5 以下硬失败,0.8 以上通过,0.5 - 0.8 为软失败)、自动重试(约十分之一测试有假结果可触发重试)、解释(让 LLM 法官提供解释以增强信任和加速调试)、评估评估者(多次测试,差异大则修订或删除不稳定测试)、本地化测试和保守触发(节省时间和金钱,通常本地化测试,特定情况下触发评估)。
  • 导致评估失败的因素包括数据(如市场变化、上下文缺失)、系统(工具及编排变化)、代码(提示和输出格式更新)、模型(平台模型版本及使用变更)方面的变化。
  • 生产中的监控比评估更具挑战性, stakes 更高。

重要细节:

  • 利用 LLM-as-judge 评估语义距离,适当使用确定性测试。
  • 嵌入式向量和余弦相似度测试在评估语义距离时效果不佳。
  • 对于接地性检查,有特定的行为标准。
  • 测试成本较高,目前仅在特定情况下触发评估。
阅读 4
0 条评论