头图

前几天我们发起了 DeepSeek 私有化部署远程测试体验,我们4卡 RTX 5000 Ada 的本地工作站上部署了R1 32B的基础模型,基于 OpenwebUI 简单搭了一个前端,文章发出后,只得感叹 DeepSeek 的带货能力确实很强,非常感谢大家的关注!

那么,除了 RTX 5000 Ada,4090 的表现如何,性能更强的 RTX 5880 Ada 的表现又怎么样,从单卡到4卡的工作站在满血部署的前提下性能表现到底怎么样?

这两天,某用户技术小伙伴也参与进来,一起测试了这3款 GPU 在 DeepSeek R1 7B、14B 和 32B 三个模型中的性能表现。

因为只是性能测试,没有加入量化版的性能表现,所得数据仅供大家参考:

统一提示词

"prompt":"9.11 and 9.9 ,which is bigger?"

测试模型1:DeepSeek-R1-Disti11-Qwen-7B

图片

一个月前7B还是个人知识库的主流模型,因此目前看24GB显存能很完美的满足个人开发者的需求,如果再考虑量化后的版本,表现应该会更好。根据技术社区的反馈,基于 Llama 70B 蒸馏的版本中文表现不及 Qwen 32B,因此对于企业知识库的需求,我们觉得 R1 Qwen 32B 是企业入门最合适的版本,对比测试我们放在后面。

测试模型2:DeepSeek-R1-Disti11-Qwen-14B

图片

我们使用 4090、RTX 5000 Ada 和 RTX 5880 Ada 三张显卡进行测试。

图片

4090:显存不足,无法测试14B模型。

在14B测试中,由于 4090 显存不足,因此更推荐使用 RTX 5000 Ada 或 RTX 5880 Ada 作为单GPU环境推荐,尝鲜的话,单卡 RTX 5000 Ada 工作站目前整机单价约在4-5万左右,性价比上面会是一个相对不错的选择。

测试模型3:DeepSeek-R1-Disti11-Qwen-32B

32B我们推荐4卡工作站,对比数据如下:

图片

可以看出在32B测试中,双卡 RTX 5880 Ada 的表现非常优秀。

四卡 4090 和四卡 RTX 5000 Ada 的表现接近,但考虑到 4090 的功耗更高,噪音也更大,并且4卡 RTX 5000 Ada 相比4卡 4090 的机器多出32GB显存,可以容纳多至30%到50%的并发访问。

我们依然推荐采用企业级 RTX 5000 Ada 或 RTX 5880 Ada 来搭建AI环境!

测试小结

  1. 7B模型场景:24GB显存即可实现 60+ tokens/s 的高效推理,是性价比较优的入门选择。
  2. 14B模型场景:需至少配备单卡32GB显存的 RTX 5000 Ada/RTX 5880 Ada,其中 RTX 5880 Ada 通过更大的显存带宽实现24.67 tokens/s的最佳性能。而RTX 5000 Ada 单卡工作站可能是14B入门首选,土豪还是选 RTX 5880 Ada吧!
  3. 32B大模型场景:这个场景下双卡 RTX 5880 Ada 表现非常优秀,而四卡 RTX 5000 Ada 凭借128GB显存在相同性能的前提下相比四卡 4090 多了30%-50%以上的并发提升,且低功耗低嗓音是办公室打工人的福音。
    从成本上,2卡 RTX 5880 Ada 价格逼近4卡 4090,但多了两个冗余GPU插槽,依然土豪首选;如果不考虑冗余场景,3-4卡 RTX 5000 Ada 可能会是这个场景下的性价比首选。

致土豪:32B及以下场景,请直接选择 RTX 5880 Ada,以上测试可忽略!顶级土豪,直接上141GB 8卡 H20 吧,满血版671B才是真的香!现在下单,3月就可以上手了。

欢迎大家贡献自己的测试数据,后台联系我们吧


老IT人
1 声望0 粉丝

IT从业20年,硬件避坑达人。