阻止你的生成式人工智能在生产中烧钱

主要观点:

  • 已将GenAI部署到生产环境的开发者深知,功能虽好但云账单惊人,传统软件成本可预测,而 GenAI 打破此模式,用户交互皆付费。
  • 大多数团队先部署后优化,超 75%的 GenAI 驱动的生产力项目未实现可衡量的成本降低,成功团队是更聪明地使用 AI 而非减少使用。
  • 无人谈论的真实成本问题:团队在 GenAI 预算上 60 - 80%的支出是浪费,如用 GPT - 5 处理简单任务等。
  • 五种削减成本同时不影响质量的方法:优化提示词、选择合适模型、缓存、优化 RAG 管道、自定义模型。同时要注意代理式 AI 循环的成本风险并设置护栏。
  • DIY 优化需努力但可精细控制,托管服务自动处理缓存和内存但规模大时成本高,实施需先记录 API 调用等数据,逐步优化。

关键信息:

  • 典型企业聊天机器人每日处理 10,000 次查询每月仅 API 成本就超 20,000 美元,规模扩大成本惊人。
  • 优化提示词可减少 token 浪费,如从 21 令牌到 7 令牌能节省 67%成本,建立提示词库可节省每月数千美元。
  • 构建模型路由器,根据复杂度选择合适模型,如 GPT - 5 成本高,多数查询可由小模型处理,能节省 75%成本。
  • 缓存可减少重复 API 调用,精确匹配缓存和语义缓存都能节省 40 - 60%的调用次数。
  • RAG 管道优化可减少上下文 token 消耗,按段落分块等。
  • 若优化后仍成本高可考虑自定义模型,如自托管 7B 模型比 GPT - 5 便宜 100 倍。
  • 代理式 AI 需设置护栏,如设置最大步骤限制、记录工具调用等。

重要细节:

  • 提供了各种优化方法的代码示例,如缓存的 Python 代码等,详细指南可在github.com/cppraveen/genai-cost-optimization获取。
  • 介绍了优化的实施 roadmap,先记录数据,再逐步进行各项优化。
阅读 25
0 条评论