使用 MLX 服务本地语言模型

主要观点:想在设备上运行大语言模型(LLM)出于个人隐私、商业机密等原因,需了解其工作原理和能耗。设备若为苹果 M 系列芯片,可使用苹果的 MLX 机器学习框架,如在命令行界面可探索 simonw 的llm工具和新llm-mlx插件,也可使用像 aider 这类连接 API 的工具,还可利用 Ollama(基于 llama.cpp),LM Studio 包含 MLX 等。介绍了使用 MLX 相关工具的步骤,如通过brew install uv安装uvuvx,用uvx安装 Python 3.12 等并运行mlx_lm.server,测试可通过curl请求,还提到模型选择及一些 shell 别名用于与mlx-lm的工具交互,且llm-mlx出现后可能更倾向使用llm,其与mlx-lm可使用相同的磁盘模型缓存。
关键信息:苹果 M 系列芯片及 MLX 框架、llm工具与llm-mlx插件、Ollama 基于 llama.cpp、LM Studio 包含 MLX、各种工具的使用步骤及别名等。
重要细节:mlx-community在 Huggingface 上用于上传 MLX 模型,mlx-lm.server运行 API 服务器及默认回复令牌限制等。

阅读 11
0 条评论