运行和存储 300 多万个语言模型人工智能请求，而无需花费 10 万美元

发布于 8 月 3 日

随着 AI LLM 技术的兴起，作者想了解更多关于其使用的知识，包括能做什么以及在各种任务中的使用场景。作者在 searchcode.com 投入更多时间，想利用这些工具来改进它。最简单的想法是为每个文件创建摘要，可用于 HTML 标题、描述和页面上，帮助用户了解内容。作者尝试通过 LLM 运行 searchcode 知道的每个代码片段并获取嵌入页面的代码片段。接下来的问题是使用哪个模型，作者尝试了多种模型，发现任何现代 LLM 都能很好地工作。但在成本方面，使用最便宜的模型运行 10,000 个请求花费 10 美元，若要运行超过 1 亿个结果成本将过高。于是计划在本地使用现有硬件运行，作者购买了 Mac Mini M2 并研究它能运行的模型，发现 Ollama 最容易设置且有适合 Go 的库 github.com/xyproto/ollamaclient ，易于连接。作者尝试了 Ollama 提供的其他模型，发现 llama3.2 最适合需求。对于提示，要非常明确不要求改进或建议，模型会对给定代码进行重构。结果存储在独立的 SQLite 数据库中，包含内容来源、使用的模型、内容大小等列。生成代码片段耗时 1 - 9 秒，平均 3 - 4 秒可接受。作者会将数据库同步回 searchcode.com ，目前数据库有 3231595 个结果。最后提到成本问题，作者认为在澳大利亚有太阳能的情况下，电力成本几乎为零，Mac 运行时功耗约 25w ，若使用其他 GPU 需相应调整。整个过程成本不到 1000 美元，是一个节省成本的本地 LLM 输出解决方案。

阅读 28