作者:_SpaderMan_
DeepSeek 在昇腾 910B 能跑多快?实测数据大揭秘!
本报告基于华为昇腾 910B NPU 平台,针对 AI 大模型推理场景进行了全面测试。报告内容涵盖测试背景、环境、方案及性能数据,重点对满血版(全精度)与量化版(w8a8)的 DeepSeek 671B 模型进行评估,并在结论部分给出综合性能分析及采购建议,为企业在高性能 AI 推理应用场景中的设备选型提供参考。
注意
- 所用驱动的版本及相关软件不排除官方近期有版本更新,建议更新到最新版驱动已获得更好的性能提升。
测试概述
测试背景
昇腾 910B 一体机由华为基于昇腾 910B NPU 设计,专注于大规模 AI 训练与推理。为验证该设备在大模型推理场景下的实际表现,本次测试主要考察了吞吐量、响应时延、资源利用及功耗情况,同时比较了模型满血版(全精度)与量化版本(W8A8)的性能差异。
测试环境
详细的环境配置及搭建步骤可参考本公众号上一篇的分享,如需复刻此测试,可联系 Spader.AI 申请 910B 裸金属测试资源。
硬件配置
组件 | 规格 |
---|---|
CPU | Kunpeng 920 192 核(4×48 核,2.6GHz) |
NPU | Ascend 910B 64G(每机 8 片) HCCS |
网络 | 8×200G RoCE v2 |
内存 | 2048GB |
存储 | 系统盘:2×480GB SATA SSD;数据盘:4×3.2T NVMe |
软件环境
组件 | 版本/说明 |
---|---|
操作系统 | Ubuntu 22.04 64 位 for ARM |
固件 | 7.5.0.1.129 |
昇腾驱动 | 24.1.rc3 |
镜像 | mindie 2.0.T3 PoC 版本(2.0.T3-800I-A2-py311-openeuler24.03-lts) |
MindIE | 2.0.T3 |
CANN | 8.0.T63 |
PTA | 6.0.T700 |
MindStudio | Msit: br_noncom_MindStudio_8.0.0_POC_20251231 分支 |
HDK | 24.1.0 |
Python 环境 | 3.11(镜像预置) |
测试模型
- 671B 模型(全精度满血版)
- 671B 模型(W8A8 量化版)
测试流程
准备工作
- 安装
llmuses
测试工具
pip3 install llmuses
- 下载测试数据集
采用的数据集为 open_qa.jsonl">open_qa.jsonl
,也可根据业务情况切换
cd /data/benchmark/
wget https://huggingface.co/datasets/Hello-SimpleAI/HC3-Chinese/blob/main/open_qa.jsonl
- 准备测试脚本
deepseekr1_perf.sh
以方便测试不同并发情况下的吞吐情况
#!/bin/bash
# Define the parallel values to test
parallel_values=(100 50 20 10 5 1)
# Loop through each parallel value
for parallel in "${parallel_values[@]}"; do
# Calculate n value: max(50, parallel * 2)
n=$((parallel * 2)) # Multiply by 2 using integer math
n=$((n < 50 ? 50 : n)) # Ensure minimum of 50
echo "Running test with parallel=$parallel, n=$n"
llmuses perf \
--url 'http://192.168.0.4:1025/v1/chat/completions' \
--parallel $parallel \
--model 'deepseekr1' \
--log-every-n-query 10 \
--read-timeout=200 \
--dataset-path '/data/benchmark/open_qa.jsonl' \
-n $n \
--max-prompt-length 128000 \
--api openai \
--dataset openqa
echo "Test with parallel=$parallel completed"
echo "----------------------------------------"
done
- 测试的数据量为并发量的两倍,最小值为 50
- 超时时间 200 秒
dataset-path
需要设置为第 2 步下载的数据集路径
具体步骤
- 启动 DeepSeek 671B 模型(全精度满血版/W8A8 量化版)
- 执行
deepseekr1_perf.sh
获取输出 - 处理输出数据,形成性能测试结果
测试方案
DeepSeek 671B 模型全精度满血版(BF16)
测试目标
验证 DeepSeek 671B 模型全精度满血版在 4 台 910B 一体机环境下的推理性能。
评测指标
- 推理吞吐量(tokens/sec)
- 端到端推理时延(输入到输出所需时间)
- NPU 计算负载与功耗
- 满血版与量化版在精度上的对比
- 分布式推理中的网络通信开销
- 内存占用情况
性能测试结果
并发数 | 成功率 | 总吞吐<BR/> tokens/秒 | 每并发<BR/>平均吞吐 <BR/> tokens/秒 | 输入 tokens | 输出 tokens | TTFT(毫秒) | TTFT 分布(毫秒)<BR/>p50<BR/>p90<BR/>p99 |
---|---|---|---|---|---|---|---|
1 | 100% | 9.209 | 9.209 | 25.318 | 944.409 | 75.275 | 72.662 <BR/> 107.909 <BR/> 117.657 |
10 | 100% | 83.013 | 8.3013 | 23.83 | 911.78 | 106.92 | 91.987 <BR/> 166.432 <BR/> 295.987 |
20 | 100% | 85.546 | 4.2773 | 23.83 | 900.65 | 194.888 | 180.789 <BR/> 286.704 <BR/> 336.625 |
50 | 100% | 77.29 | 1.5458 | 24.056 | 899.042 | 356.208 | 399.241 <BR/> 526.391 <BR/> 570.938 |
DeepSeek 761B 模型 W8A8 量化版(BF16)
测试目标
评估 W8A8 量化版模型在 2 台 910B 一体机上的推理性能表现。
评测指标
- 推理吞吐量(tokens/sec)
- 端到端推理时延
- NPU 计算负载与功耗
- 量化与满血精度对比
- 分布式推理的网络通信开销
- 内存占用情况
性能测试结果
并发数 | 成功率 | 总吞吐<BR/> tokens/秒 | 每并发<BR/>平均吞吐 <BR/> tokens/秒 | 输入 tokens | 输出 tokens | TTFT(毫秒) | TTFT 分布(毫秒)<BR/>p50<BR/>p90<BR/>p99 |
---|---|---|---|---|---|---|---|
1 | 100% | 11.327 | 11.327 | 24.5 | 948.7 | 83.753 | 82.37 <BR/> 99.932 <BR/> 105.167 |
5 | 100% | 72.504 | 14.5008 | 24.5 | 957.2 | 61.326 | 64.967 <BR/> 67.569 <BR/> 67.569 |
10 | 100% | 105.654 | 10.5654 | 24.467 | 950.867 | 63.633 | 66.442 <BR/> 69.751 <BR/> 69.751 |
20 | 100% | 201.376 | 10.0688 | 24.867 | 895.167 | 62.216 | 65.845 <BR/> 72.955 <BR/> 72.957 |
50 | 100% | 352.811 | 7.05622 | 24.107 | 893.787 | 85.962 | 94.119 <BR/> 97.626 <BR/> 110.945 |
100 | 100% | 618.311 | 6.18311 | 24.287 | 900.287 | 108.277 | 111.294 <BR/> 129.565 <BR/> 129.575 |
100* | 100% | 805.213 | 8.05213 | 24.43 | 904.34 | 372.0 | 296.7 <BR/> 604.2 <BR/> 610.7 |
备注: "100*" 表示测试中采用了加大 batch size 的策略,此举使响应时间有所增加,但整体吞吐量得到了进一步提升。
结论与推荐
测试结果总结
性能趋势
- 全精度满血版测试:在 4 机环境下,随着并发数提升,推理吞吐量呈现先增后降的趋势(例如,10 并发时达 83 tokens/sec,50 并发时下降至 77 tokens/sec),提示高并发场景下可能受限于资源竞争或通信瓶颈,导致边际性能递减。
- W8A8 量化版测试:在 2 机环境下,量化版模型表现出更高的吞吐量,从单机 11.3 tokens/sec 提升至 100 并发时达到 618 tokens/sec,加大 batch size 后甚至超过 800 tokens/sec,显示出在保持合理精度的前提下,量化策略能够大幅提高推理性能。
响应时延与系统负载
- 全精度满血版的平均延迟随并发数增加明显上升,尤其在 50 并发时延迟达 350 秒以上;
- W8A8 量化版的首包时间及平均延迟整体较为稳定,加大 batch size 虽会延长首包时间,但在整体吞吐与响应的平衡上具有优势。
综合资源利用
综合资源利用评估表明,昇腾 910B 一体机在经过专业调优后能够展现良好的负载调度能力和计算效率。测试结果显示其性能指标符合基本预期,可为特定 AI 推理场景提供硬件支持,但当前性能仍有较大提升空间。
购买建议
根据应用场景选择产品
- 若应用对精度要求极高(例如金融、医疗等对数据准确性要求严格的领域),建议选用全精度满血版设备,尽管吞吐量稍低,但可确保推理结果的精细度。
- 对于要求大规模在线推理、实时响应以及容忍轻微量化误差的场景(如推荐系统、搜索引擎等),W8A8 量化版无疑更具性价比,其高吞吐量和较低延迟能够显著提升系统整体处理能力。
系统部署与优化建议
- 根据测试数据,在实际部署时需合理设置并发数及 batch size,避免过高并发引起响应延时激增;
- 在选型前建议进行小规模试点部署,验证硬件与软件环境(如固件版本、驱动、CANN 与 MindStudio 版本)的兼容性及稳定性,确保最终系统能在生产环境中持续高效运行。
后续支持与技术生态
- 设备采购决策时,还应关注供应商提供的技术支持、固件及软件更新能力,以及生态系统的成熟度,确保在后续运营中得到及时保障与优化服务。
💡 关于满血版本的特别说明
本次测试主要聚焦于可用性验证和初步性能评估,基于目前的方法,我们已在昇腾 910B 上成功优化了量化版 DeepSeek 671B 模型的推理性能。通过这些优化,性能已实现显著提升,而满血版 DeepSeek 671B 模型在相同基础上同样具备优化潜力。
初步的性能数据表明,尽管尚未达到极限性能,但根据当前 profiling 数据,我们已识别出多个优化方向,包括:
✅ Batch Size 策略微调
✅ KV Cache 管理优化
✅ Token 生成窗口与调度策略优化
我们计划在后续阶段进行进一步深入优化,尤其是在调度策略、并发调优以及 KV Cache 管理优化等方面,力求最大化昇腾 910B 在满血版 DeepSeek 671B 模型推理中的性能表现
🧠 作为一支长期深耕大模型与国产算力融合的团队,Spader.AI 已在多个实际场景中实现百亿级模型满载运行,并具备软硬协同优化能力。
我们欢迎关注后续的深度调优报告更新,也期待与您共同探索国产大模型的最优落地路径。
👉 我们知道它还有潜力,也知道该如何挖掘。
附录
满血版测试截图
量化版测试截图
免责声明:本文档提供的信息仅用于参考,具体部署可能需要根据您的实际环境进行调整。如有变更,请以最新官方文档为准。
关于 Spader.AI
Spader.AI,北京与星以舟智能科技有限公司,是一支专注于人工智能与云计算技术的创新团队,致力于推动前沿技术的发展和实际应用。
我们构建高性能、可扩展的 AI 基础设施,提供灵活、安全的智能解决方案,帮助企业轻松应对复杂计算任务,加速 AI 应用落地。我们相信,智能技术应当开放、可及,并真正创造价值。因此,我们不断优化算法与架构,以提升算力效率、降低使用门槛,让人工智能成为推动产业升级的重要驱动力。
如果您对高性价比算力、大模型训练训练及推理以及相关业务场景的技术感兴趣,或者对本篇分享中提到的某些观点有自己的见解希望讨论,扫码秒加 SpaderMan 客服,SpaderMan 会带您入群,和各领域技术大佬共同探讨最前沿的 AI 技术。
本文由博客一文多发平台 OpenWrite 发布!
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。