python后端实战经验分享 - SegmentFault 思否

一个大模型需要多大GPU内存才能跑起来的计算公式

1 月 2 日

阅读 1 分钟

一个大模型需要多大GPU内存才能跑起来的计算公式： M = ( (P 4B) / (32 / Q) ) 1.2M: 所需的 GPU 显存，单位是 GB。P: 模型的参数数量。例如，7B 模型有 70 亿个参数。4B: 每个参数占用的字节数，这里假设每个参数占用 4 个字节（通常指 FP32 或 Float32 格式）。32: 4 个字节等于 32 位。Q: 加载模型时使用的位数。例如...

Qwen2-VL-2B-Instruct 量化，使用更少的显存运行

universe_king

2024-11-19

阅读 1 分钟

793

首先在魔搭社区搜索了一下 Qwen2-VL 相关的：[链接]然后发现了这些 2B 的量化版本首选 int4 查看：[链接]

Failed to initialize NVML: Driver/library version mismatch

universe_king

2024-11-06

阅读 1 分钟

遇到 Failed to initialize NVML: Driver/library version mismatch 的解决方案遇到这个问题的原因，多半是你更新了 apt 包前提是 nv 的驱动是没有更新的运行了 apt 更新之后，多半这个 nv 驱动就用不了了 {代码...} 那怎么办？多半重启机器就行了

关注到一个 airllm 的项目

universe_king

2024-10-11

阅读 1 分钟

755

from 8G显存运行Llama 3.1 405B！项目地址 [链接]然后我有一个疑问留在这里了：[链接]

华为昇腾 import acl 报错 ModuleNotFoundError: No module named 'acl'

universe_king

2023-08-17

阅读 2 分钟

5.1k

[链接]首先，你要知道 acl 在哪里acl 是一个 so 文件，可以让 cpython 直接调用的 so 文件，是 cann 的一部分pypi 上下载不到 acl所以你要调用 acl，首先要安装 canncann 默认的安装路径在 /usr/local/Ascend/ascend-toolkit/acl 默认的安装路径在 /usr/local/Ascend/ascend-toolkit/latest/aarch64-linux/lib64/libamct...

计算向量距离的时候，l2和 ip 哪个更好？有什么区别？应该如何选择？

universe_king

2023-04-17

阅读 1 分钟

4.4k

A：计算向量距离的时候，L2范数和内积（IP）都是常用的度量方式。它们的计算方法和意义有所不同，因此在不同的场景下选择不同的度量方式会更加合适。

深度学习 preprocess 预处理图片方式去 pytorch 化

universe_king

2023-04-04

阅读 2 分钟

1.7k

我的模型需要线上部署了，想直接使用 onnx，而不是 pytorch，所以我需要把代码中关于 pytorch 的都删除了，比如下面这段代码，怎么使用其他库替代？

如何查看一个 pytorch 的 tensor 占用了多少字节

universe_king

2023-03-15

阅读 1 分钟

3.2k

可以使用 torch.numel() 方法来计算一个 PyTorch 张量占用的总字节数，以及 element_size() 方法来计算一个元素所占的字节数。将这两个方法返回的结果相乘即可得到 PyTorch 张量占用的总字节数。

resnet50 一共有多少层？层数计算

universe_king

2023-03-14

阅读 10 分钟

1.8k

ResNet50 卷积神经网络简介ResNet-50特殊层详解再来看看代码层面的 {代码...} 输出 {代码...}

不同 batch_size 生成的 vector 不一样

universe_king

2023-03-14

阅读 1 分钟

907

之前发现，在不同设备上，推理生成的向量会不一样比如在同一台电脑是，使用 CPU 生成的向量和 GPU 生成的向量换一台电脑，这台电脑的 CPU 生成的向量和另一台电脑 CPU 生成的向量也不一样现在我还发现，一样的电脑，一样的 CPU，但是 batch_size 不一样，生成的向量也可以不一样这没有关系，因为生成的向量区别都到小数...

关于『使用 ubuntu-drivers 安装 nvida 显卡驱动的一些疑问』解答

universe_king

2023-03-08

阅读 1 分钟

4.4k

问题描述: 使用 ubuntu-drivers 安装 nvida 显卡驱动的一些疑问？Q1 ubuntu-drivers devices 输出中的后缀都是什么意思？nvidia-driver-525-server 和 nvidia-driver-450-server 是什么区别？nvidia-driver-525-server 和 nvidia-driver-525 的区别？使用 sudo apt install nvidia-driver-525-server 安装显卡驱动的时候...

如何判断深度学习推理是不是真的跑在显卡上了

universe_king

2023-02-15

阅读 1 分钟

2.7k

seo 优化：如何判断深度学习推理是不是真的跑在显卡上了如何判断 pytorch 跑在 cpu 还是在 GPU如何判断当前程序运行在 cpu 还是在 GPU英伟达显卡如何判断程序是否运行的显卡上nvidia-smi 判断程序是否运行的显卡上如何判断显卡是不是真的被使用了此方法针对英伟达显卡，使用 nvidia-smi 命令方法一：看 GPU 利用率这个...

为什么异或问题线性不可分割

universe_king

2019-07-14

阅读 1 分钟

7.6k

为什么异或问题是线性不可分割的？看教材的时候多说，感知机（单层神经网络）不能解决异或问题，那为什么呢？？？因为感知机是处理线性问题的异或问题是非线性问题什么是线性可分？ N维的 binary dataset是否线性可分取决于是否存在 N-1维的线性空间分割这个 dataset成两部分. 按照直觉来说对于一个一维直线（或曲...

第2话 TensorFlow 数据流图———TensorBoard的使用

universe_king

2019-07-13

阅读 2 分钟

TensorFlow使用符号计算图，这与Theano相似，不过与Theano相比，TensorFlow 更简洁。TensorFlow 的名字本身描述了它自身的执行原理: Tensor (张量)意味着N维数组，Flow (流)意味着基于数据流图的计算。数据流图中的图就是我们所说的有向图，在图这种数据结构中包含两种基本元素:节点和边。这两种元素在数据流图中有自己...

第1话 TensorFlow基础概念（计算图、张量、会话、常量、变量、占位符）

universe_king

2019-07-10

阅读 8 分钟

10.8k

（代码基于tensorflow 1.14 cpu版本，读者需要具有良好的python基础和线性代数知识）第三章主要介绍TensorFlow的计算模型、数据模型和运行模型，对TensorFlow的工作原理能有一个大致了解。TensorFlow程序一般分为两个阶段。第一阶段：定义计算图中所有的计算，然后定义一个计算来得到他们的和；第二阶段：执行计算。1 计...