使用 MLX 服务本地语言模型

发布于 2 月 19 日

主要观点：想在设备上运行大语言模型（LLM）出于个人隐私、商业机密等原因，需了解其工作原理和能耗。设备若为苹果 M 系列芯片，可使用苹果的 MLX 机器学习框架，如在命令行界面可探索 simonw 的llm工具和新llm-mlx插件，也可使用像 aider 这类连接 API 的工具，还可利用 Ollama（基于 llama.cpp），LM Studio 包含 MLX 等。介绍了使用 MLX 相关工具的步骤，如通过brew install uv安装uv和uvx，用uvx安装 Python 3.12 等并运行mlx_lm.server，测试可通过curl请求，还提到模型选择及一些 shell 别名用于与mlx-lm的工具交互，且llm-mlx出现后可能更倾向使用llm，其与mlx-lm可使用相同的磁盘模型缓存。
关键信息：苹果 M 系列芯片及 MLX 框架、llm工具与llm-mlx插件、Ollama 基于 llama.cpp、LM Studio 包含 MLX、各种工具的使用步骤及别名等。
重要细节：mlx-community在 Huggingface 上用于上传 MLX 模型，mlx-lm.server运行 API 服务器及默认回复令牌限制等。

阅读 11