用 llama.cpp 运行 llama 2,用 AMD Radeon RX 6900 做 GPU 加速

主要观点:介绍了利用 AMD 显卡在 Ubuntu 22.04 系统下运行 llama.cpp 并结合 Llama2 模型的过程,包括下载模型、编译、测试、启用 GPU 加速、运行服务以及故障排除等方面。
关键信息:

  • 事件驱动:Meta 发布 Llama2 及 llama.cpp 支持 CLBlast 。
  • 下载模型:可从 TheBloke 处获取多种转换好的 Llama2 模型,根据内存选择合适版本,如下载 llama-2-13b-chat.ggmlv3.q4_K_M.bin 。
  • 编译 llama.cpp:先安装相关工具和库,克隆代码后用 cmake 编译,构建好的程序在 llama.cpp/build/bin 。
  • 测试:复制测试脚本改名为 chat-llama2-13B.sh ,更换模型路径和程序名后运行。
  • 启用 GPU 加速:下载 AMD 驱动(5.5 版本),安装相关库,编译时加 -DLLAMA_CLBLAST=ON 参数,修改启动脚本并加上 --n-gpu-layers 40 。
  • 运行服务:运行 server 可通过 Web UI 访问,支持 API 请求。
  • 故障排除:若出现 OpenCL 权限问题,可通过 sudo usermod 给当前用户添加权限;对于 Llama2 表现不佳,可加大 Prompt 投喂力度。
    重要细节:不同版本的模型大小不同,如 70b 版本约需 31GB - 70GB 内存;编译过程中可能会遇到问题需换成 cmake ;GPU 加速时可选择较大的 --n-gpu-layers 数值;Web UI 支持多种操作和配置等。
阅读 7
0 条评论