本地 LLM 工具调用：你应该使用哪个 LLM？| 使用本地 LLM 的 DockerTool 调用：实际评估

主要观点：在构建 GenAI 和代理应用时，选择用于工具调用的本地模型是一个重要且复杂的问题。通过手动测试和创建可扩展的测试工具 model-test 进行测试，发现不同本地模型在工具调用方面表现各异，最终得出 Qwen 系列模型在开源选项中在工具调用方面表现领先，但存在准确率和延迟的权衡。
关键信息：

手动测试创建了 AI 购物助手 chat2cart，发现本地模型在工具调用中存在诸如急切调用、错误工具选择等问题，手动测试无法扩展。
可扩展测试工具 model-test 可定义测试用例、运行多种模型、跟踪工具调用准确性等，模拟真实工具使用对话的代理循环，避免设计要求完美预测的测试。
测试了 21 个模型共 3570 个测试用例，总体排名中 GPT-4 表现最佳，本地的 Qwen 3 也表现出色，量化模型在工具调用行为和性能上与非量化模型无显著差异，给出不同需求下的模型推荐。
测试确认 Qwen 系列模型在工具调用方面领先，但存在准确率和延迟的权衡，这对几乎所有真实世界的 GenAI 应用很重要。
重要细节：
测试硬件为 MacBook Pro M4 Max 和 128GB RAM，使用[test-all-models.sh]运行。
测试输出的 F1 分数包含工具调用、工具选择和参数准确性三个维度的调和均值，还跟踪了平均运行时间（延迟）。
不同模型在工具调用的各个方面表现不同，如 Watt 8B 模型在参数准确性上表现不佳，LLaMA 基于的 XLam 8B 变体常错过正确工具路径。
给出了不同需求下的模型推荐，如追求最大工具调用准确性可选择 Qwen 3（14B）或（8B），追求速度和性能平衡可选择 Qwen 2.5，资源受限环境可选择 LLaMA 3 Groq 7B。
提供了学习更多相关内容的途径，如 Docker Model Runner 的设计架构、模型分发规范、快速入门指南等。

本地 LLM 工具调用：你应该使用哪个 LLM？| 使用本地 LLM 的 DockerTool 调用：实际评估 | Docker