LLaMA 现在在 CPU 上运行得更快

发布于 7 月 27 日

主要观点：作者为llamafile项目编写了 84 个新的矩阵乘法内核，使读取提示和图像更快，在不同硬件上对比了llamafile与llama.cpp的性能表现，包括企业级硬件、爱好者硬件、游戏硬件、苹果硬件和专业硬件等，并分享了内核源代码、技术细节、方法论、贡献者等信息，还提到了项目的资金来源等。
关键信息：

llamafile是 2023 年 11 月与 Mozilla 合作的本地 LLM 项目，使用Cosmopolitan Libc打包llama.cpp。
在不同硬件上，llamafile相比llama.cpp在提示评估时间上有不同程度的提升，如在 Skylake 上快 2 倍，在 Raspberry Pi 5 上快 2 倍等。
介绍了新的矩阵乘法内核的优化方法，包括利用指令级并行、展开循环等，在不同 CPU 上取得了较高的浮点运算速度。
提供了内核源代码的链接及相关 pull 请求，还介绍了项目的资金来源等。
重要细节：
在不同硬件平台上，如 Hewlett Packard、Raspberry Pi、Intel Core、Mac Studio、AMD Ryzen Threadripper PRO 等，分别测试了llamafile和llama.cpp的性能。
详细说明了矩阵乘法的算法实现及优化过程，从 Python 到 C++再到利用 BLAS 库等。
提到了在不同硬件上运行spam.sh脚本的时间及相关配置。
介绍了在不同硬件上的编译配置和注意事项，如在 Apple Silicon 上需特定编译命令等。
提及了项目的贡献者、资金来源以及 Discord 社区等信息。

阅读 28