在你的代码旁边运行 LLM 评估

发布于 2025-01-15

主要观点：在使用 LLM 构建应用时需要评估（evals），其类似传统软件测试但针对与 LLM 的交互，需给结果打分（0 到 1 之间），各种存储和展示 eval 结果的平台已存在，若能在现有测试系统中运行和展示则更好。文中介绍了将 eval 作为应用代码一部分运行、eval 与 CI 测试的区别、查看和跟踪 eval 结果随时间变化以及 CI 工作流等内容。
关键信息：

可通过将 eval 结果写入 SQLite 数据库，用 Markdown 表格展示在 PR 评论中，利用 Github Artifacts 和 PR 评论实现。
CI 工作流包括在 push 和 PR 到 main 分支时以及每周固定时间运行，设置环境、安装工具、下载和上传 evals.db 等操作，最后在 PR 中添加结果评论。
重要细节：
文中示例用 Go 语言，应用主要用 Go 编写但方法不局限于 Go，还提到寻找 eval 管道一段时间。
介绍了 evals 工具的两个功能，一是写入 SQLite 数据库，二是生成 Markdown 表格行并输出到 STDOUT 显示变化。
CI 工作流中通过特定 cron 表达式每周运行，使用第三方 action-download-artifact 下载 evals.db 等。
PR 评论中的 eval 结果表格可改进，目前虽能查看 PR 上的 eval 结果变化和所有时间的数据库文件，但缺乏直观的变化图表和 main 分支当前 eval 结果的展示方式。

阅读 15