主要观点:大型语言模型的可持续性是个老话题,训练和推理过程都耗能,以 ChatGPT 的默认免费模型 gpt-4o
为例,其与 llama3-70b
结果类似,能源使用可能相近。通过对保守用户(每天 10 次查询,每次 200 令牌,能耗 2mWh/令牌)和重度用户(每天 500 次查询,每次 1000 令牌,能耗 9mWh/令牌)的计算,得出保守用户每天能耗 4Wh,重度用户每天能耗 4.5kWh。同时提到中国 DeepSeek 的 R1 模型因能效受关注,且语言模型日常使用对环境影响相对较小,但应与其他工具对比,且部分 AI 产品替代人类工作的节能性存疑,作者会在必要时使用 ChatGPT 但会尽量减少使用。
关键信息:
- 训练 GPT-3 耗能约 1.3TWh,产生约 500 公吨二氧化碳。
- Husom 等人研究显示运行
llama3-70b
的服务器级机器平均每次响应耗能 2.26Wh,相当于每令牌约 9mWh,Samsi 等人研究显示约 7J(约 2mWh)/令牌。 - 保守用户每天能耗 4Wh,约等于高效 LED 灯泡 1 小时能耗;重度用户每天能耗 4.5kWh,约等于面板加热器使卧室保持 22°C 一天的能耗。
- 平均数据中心每消耗 1kWh 能源用水 1.7 升,保守用户每天多用水 7mL,重度用户每天多用水 7.6L。
重要细节:
- 文中提及多篇关于大型语言模型能耗的研究文献,如 Patterson 等人、Husom 等人、De Vries 等人、Samsi 等人的研究。
- 介绍了一些作者关注的网站相关文章,如 Home Assistant 的 Speech-to-Phrase 文章、Rust Blog 的 2024 State of Rust Survey Results 文章、Erik Johannes Husom 的关于 KI 和气候影响的文章。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。