从终端使用 LLM 访问 Llama 3 的选项

2024 年 4 月 22 日，Llama 3 发布，早期迹象表明它是目前最好的开源模型，Llama 3 70b Instruct 在 LMSYS 排行榜上位列第五，仅次于 Claude 3 Opus 以及一些 GPT-4 和 Gemini Pro、Claude 3 Sonnet。不同的是，Llama 3 70b 的权重可获取，甚至能在（高端）笔记本电脑上运行。

LLM 工具及库：作者的 LLM 命令行工具和 Python 库通过插件可访问数十个模型，有多种使用方式可访问 Llama 3，包括本地运行和通过其他 API 提供付费访问。
- Llama-3-8B-Instruct 本地运行（llm-gpt4all）：使用 llm-gpt4all 插件可在本地运行 Llama 3 8B 模型，需 8GB 内存和 4.34GB 下载。未安装 LLM 可通过 brew 或 pipx 安装，安装插件后首次运行会下载模型，如“llm -m Meta-Llama-3-8B-Instruct "Three great names for a pet emu"”，还可使用“llm chat -m Meta-Llama-3-8B-Instruct”保持模型在内存中，可参考 LLM 文档获取更多使用细节。
- Fast API 访问（Groq）：Groq 使用自定义 LPU 推理引擎以极快速度提供开源模型，目前提供免费 API 预览，可注册获取 API 密钥。通过编辑~/Library/Application Support/io.datasette.llm/extra-openai-models.yaml文件添加模型信息，运行命令确认模型注册正确，如“llm models | grep groq”，设置 Groq API 密钥后可运行提示，如“llm -m groq-openai-llama3 "A righteous sonnet about a brave owl"”。还有 llm-groq 插件，但尚未支持新模型，可从 PR 安装。
- Local Llama 3 70b Instruct（llamafile）：在 64GB MacBook Pro M2 上使用 llamafile 运行 70b 模型，需下载 37GB 的Meta-Llama-3-70B-Instruct.Q4_0.llamafile，将其设置为可执行后运行，会在本地启动一个 Web 服务器，可通过安装 llm-llamafile 插件或配置openai-extra-models.yaml文件来访问模型，需注意此方法会将所有通过llamafile运行的提示存储在 SQLite 日志中。
- Paid access via other API providers：多个 API 提供商会提供 Llama 3，如 Perplexity Labs、Anyscale Endpoints、Fireworks AI、OpenRouter、Together AI 等，很多都有 LLM 插件，可通过安装相应插件并设置 API 密钥来使用，价格各不相同，也可在 LLM 插件目录中查看其他提供方或通过 YAML 文件配置 OpenAI 兼容模型。
总结：LLM 的一个关键理念是通过插件提供对尽可能多不同模型的访问，上文列出了两种本地运行 Llama 3 的方式和六个可访问的 API 供应商，如果想编写自己的插件，LLM 网站有详细教程。