主要观点:介绍了利用 AMD 显卡在 Ubuntu 22.04 系统下运行 llama.cpp 并结合 Llama2 模型的过程,包括下载模型、编译、测试、启用 GPU 加速、运行服务以及故障排除等方面。
关键信息:
- 事件驱动:Meta 发布 Llama2 及 llama.cpp 支持 CLBlast 。
- 下载模型:可从 TheBloke 处获取多种转换好的 Llama2 模型,根据内存选择合适版本,如下载 llama-2-13b-chat.ggmlv3.q4_K_M.bin 。
- 编译 llama.cpp:先安装相关工具和库,克隆代码后用 cmake 编译,构建好的程序在 llama.cpp/build/bin 。
- 测试:复制测试脚本改名为 chat-llama2-13B.sh ,更换模型路径和程序名后运行。
- 启用 GPU 加速:下载 AMD 驱动(5.5 版本),安装相关库,编译时加 -DLLAMA_CLBLAST=ON 参数,修改启动脚本并加上 --n-gpu-layers 40 。
- 运行服务:运行 server 可通过 Web UI 访问,支持 API 请求。
- 故障排除:若出现 OpenCL 权限问题,可通过 sudo usermod 给当前用户添加权限;对于 Llama2 表现不佳,可加大 Prompt 投喂力度。
重要细节:不同版本的模型大小不同,如 70b 版本约需 31GB - 70GB 内存;编译过程中可能会遇到问题需换成 cmake ;GPU 加速时可选择较大的 --n-gpu-layers 数值;Web UI 支持多种操作和配置等。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。