本地 LLM 工具调用:你应该使用哪个 LLM?| 使用本地 LLM 的 DockerTool 调用:实际评估 | Docker

主要观点:在构建 GenAI 和代理应用时,选择用于工具调用的本地模型是一个重要且复杂的问题。通过手动测试和创建可扩展的测试工具 model-test 进行测试,发现不同本地模型在工具调用方面表现各异,最终得出 Qwen 系列模型在开源选项中在工具调用方面表现领先,但存在准确率和延迟的权衡。
关键信息:

  • 手动测试创建了 AI 购物助手 chat2cart,发现本地模型在工具调用中存在诸如急切调用、错误工具选择等问题,手动测试无法扩展。
  • 可扩展测试工具 model-test 可定义测试用例、运行多种模型、跟踪工具调用准确性等,模拟真实工具使用对话的代理循环,避免设计要求完美预测的测试。
  • 测试了 21 个模型共 3570 个测试用例,总体排名中 GPT-4 表现最佳,本地的 Qwen 3 也表现出色,量化模型在工具调用行为和性能上与非量化模型无显著差异,给出不同需求下的模型推荐。
  • 测试确认 Qwen 系列模型在工具调用方面领先,但存在准确率和延迟的权衡,这对几乎所有真实世界的 GenAI 应用很重要。
    重要细节:
  • 测试硬件为 MacBook Pro M4 Max 和 128GB RAM,使用[test-all-models.sh]运行。
  • 测试输出的 F1 分数包含工具调用、工具选择和参数准确性三个维度的调和均值,还跟踪了平均运行时间(延迟)。
  • 不同模型在工具调用的各个方面表现不同,如 Watt 8B 模型在参数准确性上表现不佳,LLaMA 基于的 XLam 8B 变体常错过正确工具路径。
  • 给出了不同需求下的模型推荐,如追求最大工具调用准确性可选择 Qwen 3(14B)或(8B),追求速度和性能平衡可选择 Qwen 2.5,资源受限环境可选择 LLaMA 3 Groq 7B。
  • 提供了学习更多相关内容的途径,如 Docker Model Runner 的设计架构、模型分发规范、快速入门指南等。
阅读 15
0 条评论