40系列停产,近期国内白牌4090价格一路飙升,已经突破2万大关。部分用户开始寻找性价比更高的替代方案。考虑到越来越多的企业用户想要接入Deepseek,大多数也都是私有化部署的需求,我们最近的测试验证结果再综合线上的信息,一致认为中文环境下要么直接上671B满血版,要么选择蒸馏版32B,这是相对最小投资最好性能的方案。
之所以选择5000 Ada(32G显存)来跑32B FP16。是因为除了5000 Ada比4090显存大,同时也是公版标准企业级GPU,当下价格并不比4090贵多少。对于大模型场景,显存大也意味着更大的并发量,企业内部能支持的用户也就更多。那么4卡5000 Ada到底并发量能做到多少,我们做了个测试:
测试版本:
DeepSeek-R1-Distill-32B FP16
测试环境:
GPU:RTX 5000 Ada 32G *4
CPU:Intel(R)Xeon(R) w5-3433
内存:256GB DDR5 硬盘:1TB
数据仅供大家参考:
TTFT (Time to First Token,首 Token 延迟) :从发送请求到系统生成第一个输出 token 的时间。衡量系统对单个请求的响应速度,TTFT 越低,用户体验越好。
TPOT (Time Per OutputToken,单 Token 生成时间) :系统生成每个输出 token 所需的时间。TPOT 越低,模型生成文本的速度越快。一般 TPOT 需要在 50ms左右,否则会跟不上人眼的阅读速度,影响阅读体验。
我们在压力并发测试中分别测试了2种常见的使用场景:
1. 问答对话场景
特点:直接回答用户提出的问题,通常基于预定义的规则、知识库或简单检索。
测试结果:并发数在32以内,吞吐率可以达到>20tokens/s,首字时延<1秒,当并发数为64时,吞吐率仍可以达到16.22tokens/s,首字时延1.452秒。可以说明4卡5000 Ada 可以容纳60多位用户同时进行问答对话,并且输出耗时与首字延迟的表现优秀。
2. 模拟RAG场景
特点:结合检索外部知识库与生成模型,动态生成精准、上下文相关的答案。
测试结果:并发数在16以内,吞吐率可以达到>15tokens/s,首字时延1~9秒左右(平均输入长度4096,首字时延相应变长),可以流畅的对海量文档和数据库进行检索并输出内容。
测试小结
基于DeepSeek R1 32B的企业私有化部署场景,尝鲜或预研阶段我们推荐 4卡 RTX 5000 Ada 机型,这一配置在性能和成本效益方面表现出色,能够满足企业级应用的高并发需求。
参数方面:RTX 5000 Ada 显卡凭借其128GB的总显存容量(单卡32GB),相比其他配置如4卡4090显卡,能够支持更高的并发访问量,提升幅度可达30%-50%。
整机方面:RTX 5000 Ada 显卡适配当下主流的工作站,在功耗和噪音控制方面表现优异,满载的前提下出风口的噪音也不高于55分贝(相当于办公室正常办公音量),整机功耗1600W-2000W,办公室环境就可以很好的安装部署。
成本方面:4卡 RTX 5000 Ada 显卡的配置在性价比上有着显著优势,即使双路的工作站硬件成本也能控制在20万以内,隔壁桌同事认为无论性能、体验、成本都不错,不一定是首选方案,但绝对是一个性价比hin高的选项。
还是那句话:如果是671B满血版部署,我们还是建议采用H20 141B NVLINK 8GPU版本,详情可以Call我们,欢迎骚扰!
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。