GPU 的 TFLOPS FP32 指标可以反应 resnet50 的推理速度吗?

首先,我的首先有一个 macbook pro m1 (8core cpu 8 core GPU )

我在网上查了一下这个 GPU 的 TFLOPS FP32 指标,差不多是 2.6 TFLOPS FP32

图片.png

https://www.notebookcheck.net...

然后,我昨天晚上在矩池云上搞了一个 k80 用于测试

这里从矩池云上看到关于 TESLA K80 GPU 的硬件指标

图片.png

给出的 TFLOPS 是 1.37,但是没有明确说明是 TFLOPS FP16 还是 FP32 还是 FP64,就当作是 FP32 吧!

然后我用 resnet50 推理 30张图片

apple m1 GPU 用了 1.67秒

TESLA K80 GPU 用了 3.5秒

从 TFLOPS 角度看,是正相关的关系

所以:GPU 的 TFLOPS FP32 指标可以反应 resnet50 的推理速度吗?


还有一些子问题:

像 RTX2080TI 这样的猛男,他的 TFLOPS FP32 也只有 13.45,才比我的 apple silicon m1 强了 5 倍?我还以为能强几十倍呢?

图片.png

https://www.techpowerup.com/g...
阅读 2.2k
1 个回答

fp32 TFLOPS 反映的就是 fp32 的计算性能,所以用它来推断 GPU 的 fp32 运算时间大概是可以的。

对模型来说,这个就还涉及到运算在不同显卡上的不同实现(会导致同一数学运算的实际 GPU 运算量的差异),GPU 运算是否是推理的性能瓶颈(就是说是否模型推理时间的绝大部分在进行 GPU 运算,有些小模型 GPU 运算真的不是瓶颈 ...)等等。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题