一个大模型需要多大GPU内存才能跑起来的计算公式

universe_king

1 月 2 日浙江

阅读 1 分钟

0

一个大模型需要多大GPU内存才能跑起来的计算公式： M = ( (P 4B) / (32 / Q) ) 1.2
M: 所需的 GPU 显存，单位是 GB。
P: 模型的参数数量。例如，7B 模型有 70 亿个参数。
4B: 每个参数占用的字节数，这里假设每个参数占用 4 个字节（通常指 FP32 或 Float32 格式）。
32: 4 个字节等于 32 位。
Q: 加载模型时使用的位数。例如，16 位 (FP16/BF16)，8 位 (INT8) 或 4 位 (INT4)。这通常称为量化。
1.2: 表示额外开销的系数，通常为 20%。这考虑了除了模型权重之外还需要加载到 GPU 显存中的其他数据，例如优化器状态、梯度等。

如使用 FP16 量化加载 Llama 70B 模型，计算过程就是
M = ( (70,000,000,000 4) / (32 / 16) ) 1.2 = 168 GB

图片.png

llm 深度学习人工智能机器学习算法

本文系转载，阅读原文

https://weibo.com/2194035935/P6DrHa8Ob?layerid=5115816012417143

阅读 1.1k发布于 1 月 2 日

universe_king

3.5k 声望716 粉丝

« 上一篇

fastapi 的 typer 会是 click 项目的优秀替代品吗？

下一篇 »

新终端工具 Ghostty 体验分享，对比 tabby 和 iterm2

引用和评论

推荐阅读

避坑指南：升级到 rabbitmq3.13.7 后队列 State crashed

universe_king阅读 242

一文掌握 MCP 上下文协议：从理论到实践

陈明勇赞 6阅读 1.8k

LRU算法，你别跑，我就要吃透你

夕水赞 3阅读 4.2k

大模型中的Token究竟是什么？从原理到作用深度解析

DBLens赞 5阅读 4.2k

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

思否编辑部赞 2阅读 4.9k

大模型时代，后端程序员如何避免被AI卷死？

王中阳讲编程赞 4阅读 1.9k

MCP 协议为何不如你想象的安全？从技术专家视角解读

Baihai_IDP赞 2阅读 426

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。