主要观点:在构建 GenAI 和代理应用时,选择用于工具调用的本地模型是一个重要且复杂的问题。通过手动测试和创建可扩展的测试工具 model-test 进行测试,发现不同本地模型在工具调用方面表现各异,最终得出 Qwen 系列模型在开源选项中在工具调用方面表现领先,但存在准确率和延迟的权衡。
关键信息:
- 手动测试创建了 AI 购物助手 chat2cart,发现本地模型在工具调用中存在诸如急切调用、错误工具选择等问题,手动测试无法扩展。
- 可扩展测试工具 model-test 可定义测试用例、运行多种模型、跟踪工具调用准确性等,模拟真实工具使用对话的代理循环,避免设计要求完美预测的测试。
- 测试了 21 个模型共 3570 个测试用例,总体排名中 GPT-4 表现最佳,本地的 Qwen 3 也表现出色,量化模型在工具调用行为和性能上与非量化模型无显著差异,给出不同需求下的模型推荐。
- 测试确认 Qwen 系列模型在工具调用方面领先,但存在准确率和延迟的权衡,这对几乎所有真实世界的 GenAI 应用很重要。
重要细节: - 测试硬件为 MacBook Pro M4 Max 和 128GB RAM,使用[test-all-models.sh]运行。
- 测试输出的 F1 分数包含工具调用、工具选择和参数准确性三个维度的调和均值,还跟踪了平均运行时间(延迟)。
- 不同模型在工具调用的各个方面表现不同,如 Watt 8B 模型在参数准确性上表现不佳,LLaMA 基于的 XLam 8B 变体常错过正确工具路径。
- 给出了不同需求下的模型推荐,如追求最大工具调用准确性可选择 Qwen 3(14B)或(8B),追求速度和性能平衡可选择 Qwen 2.5,资源受限环境可选择 LLaMA 3 Groq 7B。
- 提供了学习更多相关内容的途径,如 Docker Model Runner 的设计架构、模型分发规范、快速入门指南等。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。