Llamafile 的进展，四个月过去了 – Mozilla 黑客 - 网络开发者博客

发布于 7 月 24 日

主要观点：Mozilla 的 Innovation 组去年推出 llamafile 项目，获开源 AI 开发者积极响应，成为 GitHub 上最受欢迎的仓库之一，吸引众多贡献者和社区。lead developer Justine Tunney 持续改进项目，最近发布 v0.8 版本，支持最新开放模型和提升 CPU 推理性能，使 llamafile 成为在本地硬件上运行多种开放大语言模型的最便捷和最快方式。
关键信息：

llamafile 基于 llama.cpp 构建，新增 tinyBLAS 实现 GPU 支持（NVIDIA 和 AMD），使 GPU 使用更简单无缝，无需安装 CUDA 或 ROCm SDK。
Justine 工作使 llamafile 的 CPU 性能提升 10 倍，推动本地 AI 发展，还优化了 Raspberry Pi 性能，使小模型能在低成本电脑上运行。
紧跟开放模型空间的快速发展，保持与 llama.cpp 同步，支持最新模型，如 Meta 的 LLaMA 3 等。
提供创建 llamafiles 的简单命令，Hugging Face 也添加对 llamafile 的支持。
具备 OpenAI 兼容的 API 服务器，可作为 OpenAI 的替代品，且在扩展功能和兼容性方面投入努力。
与其他开源 AI 项目集成，如 Open Interpreter、LangChain 和 LlamaIndex 等。
重要细节：
Justine 完成工作后立即向 llama.cpp 提交 PR 贡献性能提升。
在 Raspberry Pi 5 上优化后，小模型运行速度可达 80 tokens/sec。
可通过单一命令创建 llamafiles，如llamafile-convert [model.gguf]。
Hugging Face 模型库可搜索和过滤 llamafiles。
鼓励开发者提出需求和帮助，可通过 Discord 或 GitHub 联系。
介绍 Stephen Hood 的相关经历。

阅读 46