阻止你的生成式人工智能在生产中烧钱 - SegmentFault 思否

阻止你的生成式人工智能在生产中烧钱

发布于 9 月 8 日

主要观点：

已将GenAI部署到生产环境的开发者深知，功能虽好但云账单惊人，传统软件成本可预测，而 GenAI 打破此模式，用户交互皆付费。
大多数团队先部署后优化，超 75%的 GenAI 驱动的生产力项目未实现可衡量的成本降低，成功团队是更聪明地使用 AI 而非减少使用。
无人谈论的真实成本问题：团队在 GenAI 预算上 60 - 80%的支出是浪费，如用 GPT - 5 处理简单任务等。
五种削减成本同时不影响质量的方法：优化提示词、选择合适模型、缓存、优化 RAG 管道、自定义模型。同时要注意代理式 AI 循环的成本风险并设置护栏。
DIY 优化需努力但可精细控制，托管服务自动处理缓存和内存但规模大时成本高，实施需先记录 API 调用等数据，逐步优化。

关键信息：

典型企业聊天机器人每日处理 10,000 次查询每月仅 API 成本就超 20,000 美元，规模扩大成本惊人。
优化提示词可减少 token 浪费，如从 21 令牌到 7 令牌能节省 67%成本，建立提示词库可节省每月数千美元。
构建模型路由器，根据复杂度选择合适模型，如 GPT - 5 成本高，多数查询可由小模型处理，能节省 75%成本。
缓存可减少重复 API 调用，精确匹配缓存和语义缓存都能节省 40 - 60%的调用次数。
RAG 管道优化可减少上下文 token 消耗，按段落分块等。
若优化后仍成本高可考虑自定义模型，如自托管 7B 模型比 GPT - 5 便宜 100 倍。
代理式 AI 需设置护栏，如设置最大步骤限制、记录工具调用等。

重要细节：

提供了各种优化方法的代码示例，如缓存的 Python 代码等，详细指南可在github.com/cppraveen/genai-cost-optimization获取。
介绍了优化的实施 roadmap，先记录数据，再逐步进行各项优化。

Stop Your GenAI From Burning Cash in Production

https://dzone.com/articles/genai-cost-optimization-tips

阅读 57

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。