最近收到不少用户反馈还有什么配置适合企业进行DS本地化部署,本期我们测试8卡NVIDIA RTX 5880 Ada 在 DeepSeek 32B(FP16/FP8)、70B(FP16)中的并发性能,同时也额外测试 8卡 L20 的对比,来看看它们的测试表现。
测试环境:
GPU:8卡 RTX 5880 Ada 48G
CPU:英特尔® 至强® Silver 4314
内存:256GB DDR4 硬盘:3.84TB
数据仅供大家参考:
DeepSeek-R1-Distill-32B FP16
DeepSeek-R1-Distill-32B FP8
DeepSeek-R1-Distill-70B FP16
测试结果:
32B FP16 vs 32B FP8
1.对话问答场景
FP8 相较 FP16 综合提升8%~15%,当并发数越低,提升越大。
在32B FP16和FP8场景中,并发数<128时,8卡 5880 Ada 的Tokens/s>17,在高并发情况下的表现优秀。
2.模拟RAG场景
在并发数较低时,FP8相较FP16有一定的提升,当并发数>64时,提升很小。(并发数低时测试可能存在一定误差)
综上所述,当并发数<64时,无论是32B FP16 还是 FP8,8卡 5880 Ada 都能很好的支持模拟RAG场景。
32B FP16 vs 70B FP16
1.对话问答场景
当模型大小从32B提升到70B,从上图可以看出两者 Tokens/s 的变化趋势,8卡 5880 Ada 在两个模型中的表现符合预期。
当并发数<80时,8卡 5880 Ada 的Tokens/s>13,高并发场景下表现优秀。
2.模拟RAG场景
在模拟RAG场景中,明显可看出70B模型比32B模型的算力需求更大。
32B模型中,并发数<80时,Tokens/s>9,高并发模拟RAG场景中表现较优秀。
70B模型中,并发数<16时,Tokens/s>6,表现良好。并发数>32时,稍显缓慢。
额外测试:
8卡 5880 Ada vs 8卡 L20(32B FP8)
我们同时也测试了8卡 L20 在 32B FP8 中的表现,并与8卡 5880 Ada 作比较。
在对话问答场景中,并发数<64时,两者Tokens/s>27,表现优秀。8卡 5880 Ada 相较 8卡 L20 综合提升 9%~13%。
测试小结
8卡 5880 Ada 能够很好的支持 32B FP8 和 FP16,不过 FP8 相较 FP16 提升较小,因此建议部署 FP16。
8卡 5880 Ada 能够支持部署 70B FP16,并且在对话问答场景中表现优秀,在模拟RAG场景中,并发数过高会有算力压力。
联系后台可申请体验,或加入赞奇 DeepSeek 应用交流群。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。