用 llama.cpp 运行 llama 2，用 AMD Radeon RX 6900 做 GPU 加速

发布于 2023-07-29

主要观点：介绍了利用 AMD 显卡在 Ubuntu 22.04 系统下运行 llama.cpp 并结合 Llama2 模型的过程，包括下载模型、编译、测试、启用 GPU 加速、运行服务以及故障排除等方面。
关键信息：

事件驱动：Meta 发布 Llama2 及 llama.cpp 支持 CLBlast 。
下载模型：可从 TheBloke 处获取多种转换好的 Llama2 模型，根据内存选择合适版本，如下载 llama-2-13b-chat.ggmlv3.q4_K_M.bin 。
编译 llama.cpp：先安装相关工具和库，克隆代码后用 cmake 编译，构建好的程序在 llama.cpp/build/bin 。
测试：复制测试脚本改名为 chat-llama2-13B.sh ，更换模型路径和程序名后运行。
启用 GPU 加速：下载 AMD 驱动（5.5 版本），安装相关库，编译时加 -DLLAMA_CLBLAST=ON 参数，修改启动脚本并加上 --n-gpu-layers 40 。
运行服务：运行 server 可通过 Web UI 访问，支持 API 请求。
故障排除：若出现 OpenCL 权限问题，可通过 sudo usermod 给当前用户添加权限；对于 Llama2 表现不佳，可加大 Prompt 投喂力度。
重要细节：不同版本的模型大小不同，如 70b 版本约需 31GB - 70GB 内存；编译过程中可能会遇到问题需换成 cmake ；GPU 加速时可选择较大的 --n-gpu-layers 数值；Web UI 支持多种操作和配置等。

阅读 7