主要观点:在使用 LLM 构建应用时需要评估(evals),其类似传统软件测试但针对与 LLM 的交互,需给结果打分(0 到 1 之间),各种存储和展示 eval 结果的平台已存在,若能在现有测试系统中运行和展示则更好。文中介绍了将 eval 作为应用代码一部分运行、eval 与 CI 测试的区别、查看和跟踪 eval 结果随时间变化以及 CI 工作流等内容。
关键信息:
- 可通过将 eval 结果写入 SQLite 数据库,用 Markdown 表格展示在 PR 评论中,利用 Github Artifacts 和 PR 评论实现。
- CI 工作流包括在 push 和 PR 到 main 分支时以及每周固定时间运行,设置环境、安装工具、下载和上传 evals.db 等操作,最后在 PR 中添加结果评论。
重要细节: - 文中示例用 Go 语言,应用主要用 Go 编写但方法不局限于 Go,还提到寻找 eval 管道一段时间。
- 介绍了 evals 工具的两个功能,一是写入 SQLite 数据库,二是生成 Markdown 表格行并输出到 STDOUT 显示变化。
- CI 工作流中通过特定 cron 表达式每周运行,使用第三方 action-download-artifact 下载 evals.db 等。
- PR 评论中的 eval 结果表格可改进,目前虽能查看 PR 上的 eval 结果变化和所有时间的数据库文件,但缺乏直观的变化图表和 main 分支当前 eval 结果的展示方式。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。