Meta 的新 Llama 3.3 70B 可在笔记本电脑上运行,20 个月前在同一机器上运行类似 GPT-3 级别的模型就已令人惊叹,过去两年消费者硬件上可访问的模型质量有了巨大提升。作者的笔记本是 2023 年 1 月购买的 64GB MacBook Pro M2,运行 LLMs 的所有实验都用此机器。2023 年 3 月运行 Meta 最初的 LLaMA 版本后称其为大语言模型的 Stable Diffusion 时刻,前天首次在该笔记本上运行 Llama 3.3 70B 时有似曾相识之感。Meta 称该模型与 Llama 3.1 405B 性能相似,可在普通开发者工作站上本地运行且成本效益高。Llama 3.1 405B 是其更大的同类最佳模型,与 GPT-4 等在同一量级,Llama 3.3 70B 符合该标准,作者本以为像 GPT-4 那样有用的模型需要比消费级笔记本更多的资源。
如何在机器上使用 Ollama 运行 Llama 3.3 70B:该模型至少需要 64GB 内存,首次尝试耗尽内存导致 Mac 死机,第二次确保不与 Firefox 和 VS Code 同时运行后成功。使用 Ollama,安装后运行“ollama pull llama3.3”将 42GB 数据下载到“~/.ollama/models/blobs”目录,安装“llm-ollama”插件,运行“llm models”可看到“Ollama: llama3.3:latest (aliases: llama3.3)”。
让模型接受测试:可运行如“Write a letter to the mayor of Half Moon Bay CA advocating for the installation of cosy boxes for Pelicans in the harbor”这样的提示,得到包含相关内容的回复;还尝试了简单的编码挑战,如生成提取 YouTube 视频缩略图的 HTML 代码,代码能正常运行并展示效果,虽不如与 Claude 迭代的版本好,但仍表明 Llama 3.3 可在笔记本上运行完整的交互式应用。
得分如何:常用 LiveBench 检查模型,“llama-3.3-70b-instruct-turbo”在其表中位于第 19 位,高于 Claude 3 Opus 等模型,LiveBench 按多个评估的平均值排序,Llama 3.3 70B 在“IF”评估中得分较高,需注意所运行的版本是量化的,基准分数可能不同。
值得一提的:Llama 3.3 是在自己硬件上运行印象最深刻的模型,近期还有其他积极体验,如 Alibaba 的 Qwen2.5-Coder-32B 模型在代码方面表现出色,QwQ 模型可在自己设备上运行,Meta 的 Llama 3.2 系列模型也很有趣。
性能是否即将停滞:作者对关于 LLMs 达到 plateau 的讨论大多不信服,对多模态和模型效率领域更感兴趣,这些在过去一年有巨大进步,即使工具进步停止,已有模型也能让作者忙碌和高效多年。
额外:使用 MLX 运行 Llama 3.3 70B:使用 Apple 的 MLX 库,通过“uv run --with mlx-lm --python 3.12 python”进入有“mlx-lm”的 Python 解释器,下载模型数据,然后进行生成操作,得到包含 Pelican 骑自行车的 SVG 图像,效果一般。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。