2024 年 4 月 22 日,Llama 3 发布,早期迹象表明它是目前最好的开源模型,Llama 3 70b Instruct 在 LMSYS 排行榜上位列第五,仅次于 Claude 3 Opus 以及一些 GPT-4 和 Gemini Pro、Claude 3 Sonnet。不同的是,Llama 3 70b 的权重可获取,甚至能在(高端)笔记本电脑上运行。
LLM 工具及库:作者的 LLM 命令行工具和 Python 库通过插件可访问数十个模型,有多种使用方式可访问 Llama 3,包括本地运行和通过其他 API 提供付费访问。
- Llama-3-8B-Instruct 本地运行(llm-gpt4all):使用 llm-gpt4all 插件可在本地运行 Llama 3 8B 模型,需 8GB 内存和 4.34GB 下载。未安装 LLM 可通过 brew 或 pipx 安装,安装插件后首次运行会下载模型,如“llm -m Meta-Llama-3-8B-Instruct "Three great names for a pet emu"”,还可使用“llm chat -m Meta-Llama-3-8B-Instruct”保持模型在内存中,可参考 LLM 文档获取更多使用细节。
- Fast API 访问(Groq):Groq 使用自定义 LPU 推理引擎以极快速度提供开源模型,目前提供免费 API 预览,可注册获取 API 密钥。通过编辑
~/Library/Application Support/io.datasette.llm/extra-openai-models.yaml
文件添加模型信息,运行命令确认模型注册正确,如“llm models | grep groq”,设置 Groq API 密钥后可运行提示,如“llm -m groq-openai-llama3 "A righteous sonnet about a brave owl"”。还有 llm-groq 插件,但尚未支持新模型,可从 PR 安装。 - Local Llama 3 70b Instruct(llamafile):在 64GB MacBook Pro M2 上使用 llamafile 运行 70b 模型,需下载 37GB 的
Meta-Llama-3-70B-Instruct.Q4_0.llamafile
,将其设置为可执行后运行,会在本地启动一个 Web 服务器,可通过安装 llm-llamafile 插件或配置openai-extra-models.yaml
文件来访问模型,需注意此方法会将所有通过llamafile
运行的提示存储在 SQLite 日志中。 - Paid access via other API providers:多个 API 提供商会提供 Llama 3,如 Perplexity Labs、Anyscale Endpoints、Fireworks AI、OpenRouter、Together AI 等,很多都有 LLM 插件,可通过安装相应插件并设置 API 密钥来使用,价格各不相同,也可在 LLM 插件目录中查看其他提供方或通过 YAML 文件配置 OpenAI 兼容模型。
- 总结:LLM 的一个关键理念是通过插件提供对尽可能多不同模型的访问,上文列出了两种本地运行 Llama 3 的方式和六个可访问的 API 供应商,如果想编写自己的插件,LLM 网站有详细教程。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。