LLaMA 现在在 CPU 上运行得更快

主要观点:作者为llamafile项目编写了 84 个新的矩阵乘法内核,使读取提示和图像更快,在不同硬件上对比了llamafilellama.cpp的性能表现,包括企业级硬件、爱好者硬件、游戏硬件、苹果硬件和专业硬件等,并分享了内核源代码、技术细节、方法论、贡献者等信息,还提到了项目的资金来源等。
关键信息:

  • llamafile是 2023 年 11 月与 Mozilla 合作的本地 LLM 项目,使用Cosmopolitan Libc打包llama.cpp
  • 在不同硬件上,llamafile相比llama.cpp在提示评估时间上有不同程度的提升,如在 Skylake 上快 2 倍,在 Raspberry Pi 5 上快 2 倍等。
  • 介绍了新的矩阵乘法内核的优化方法,包括利用指令级并行、展开循环等,在不同 CPU 上取得了较高的浮点运算速度。
  • 提供了内核源代码的链接及相关 pull 请求,还介绍了项目的资金来源等。
    重要细节:
  • 在不同硬件平台上,如 Hewlett Packard、Raspberry Pi、Intel Core、Mac Studio、AMD Ryzen Threadripper PRO 等,分别测试了llamafilellama.cpp的性能。
  • 详细说明了矩阵乘法的算法实现及优化过程,从 Python 到 C++再到利用 BLAS 库等。
  • 提到了在不同硬件上运行spam.sh脚本的时间及相关配置。
  • 介绍了在不同硬件上的编译配置和注意事项,如在 Apple Silicon 上需特定编译命令等。
  • 提及了项目的贡献者、资金来源以及 Discord 社区等信息。
阅读 13
0 条评论