主要观点:在家用系统中运行 llama.cpp 软件套件有其价值,可通过优化每生成一个 token 的功耗来提高效率,且不同因素会影响最优功耗设置。
关键信息:
- 优化目标可选择功耗或速度,对于长时间运行任务,功耗更优;对于交互工作,速度更优。
- 测量功耗较麻烦,需通过解析日志文件和使用特定工具获取相关数据。
- 实验中通过逐步调整 GPU 功耗,得出双 3090 + i7 CPU 系统的功耗与每生成一个 token 的功耗关系图及对应数据。
重要细节: - 开始时通过解析 llama.cpp 主日志文件的最后 10 行获取数据,但多 GPU 时会变混乱,需为每个运行实例创建唯一日志文件。
- 使用“Shelly”IP 启用插座测量功耗,不够精确但足够用,Nvidia-smi 可显示 GPU 状态及功耗。
- 实验中以 25 瓦为步长调整 GPU 功耗,运行多个 llama.cpp 实例以减少采样误差,得出不同功耗下的性能数据。
- 结论表明存在明显的最优功耗点约为每 GPU 225 瓦,此时效率较好,但仍不如大型模型的效率,且结果受多种因素影响,需自己测试验证。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。