谷歌发布 LMEval,一个开源的跨提供商 LLM 评估工具

主要观点:LMEval 旨在帮助 AI 研究人员和开发者比较不同大型语言模型的性能,设计准确、多模态且易使用,已用于评估主要模型的安全性等。
关键信息:因新模型推出速度快,需快速可靠评估其适用性;关键特征包括兼容多种 LLM 提供者、增量基准执行提高效率、支持多模态评估及加密结果存储;通过 LiteLLM 实现跨提供者支持;以 Python 编写并在 GitHub 上可用,需按步骤运行评估,可将结果保存到 SQLite 数据库并导出到 pandas 分析可视化;还包括 LMEvalboard 可视化仪表盘;已用于创建 Phare LLM 基准,它不是唯一的跨提供者评估框架,还有 Harbor Bench 和 EleutherAI 的 LM Evaluation Harness。
重要细节:Google 研究人员称新模型推出快需快速评估;LiteLLM 可让开发者用 OpenAI API 格式调用多种 LLM 提供者并翻译输入输出;LMEval 按增量评估模型运行必要评估;可定义基准任务、添加模型等进行评估;LMEvalboard 可查看整体性能等;Harbor Bench 限于文本提示且用 LLM 判结果质量,EleutherAI 的框架有 60 多个基准且可定义新基准。

阅读 307
0 条评论