DeepSeek 在昇腾 910B 能跑多快？实测数据大揭秘！

作者：_SpaderMan_

DeepSeek 在昇腾 910B 能跑多快？实测数据大揭秘！

本报告基于华为昇腾 910B NPU 平台，针对 AI 大模型推理场景进行了全面测试。报告内容涵盖测试背景、环境、方案及性能数据，重点对满血版（全精度）与量化版（w8a8）的 DeepSeek 671B 模型进行评估，并在结论部分给出综合性能分析及采购建议，为企业在高性能 AI 推理应用场景中的设备选型提供参考。

注意

所用驱动的版本及相关软件不排除官方近期有版本更新，建议更新到最新版驱动已获得更好的性能提升。

测试概述

测试背景

昇腾 910B 一体机由华为基于昇腾 910B NPU 设计，专注于大规模 AI 训练与推理。为验证该设备在大模型推理场景下的实际表现，本次测试主要考察了吞吐量、响应时延、资源利用及功耗情况，同时比较了模型满血版（全精度）与量化版本（W8A8）的性能差异。

测试环境

详细的环境配置及搭建步骤可参考本公众号上一篇的分享，如需复刻此测试，可联系 Spader.AI 申请 910B 裸金属测试资源。

硬件配置

组件	规格
CPU	Kunpeng 920 192 核（4×48 核，2.6GHz）
NPU	Ascend 910B 64G（每机 8 片） HCCS
网络	8×200G RoCE v2
内存	2048GB
存储	系统盘：2×480GB SATA SSD；数据盘：4×3.2T NVMe

软件环境

组件	版本/说明
操作系统	Ubuntu 22.04 64 位 for ARM
固件	7.5.0.1.129
昇腾驱动	24.1.rc3
镜像	mindie 2.0.T3 PoC 版本（2.0.T3-800I-A2-py311-openeuler24.03-lts）
MindIE	2.0.T3
CANN	8.0.T63
PTA	6.0.T700
MindStudio	Msit: br_noncom_MindStudio_8.0.0_POC_20251231 分支
HDK	24.1.0
Python 环境	3.11（镜像预置）

测试模型

671B 模型（全精度满血版）
671B 模型（W8A8 量化版）

测试流程

准备工作

安装 llmuses 测试工具

pip3 install llmuses

下载测试数据集

采用的数据集为 open_qa.jsonl">open_qa.jsonl，也可根据业务情况切换

cd /data/benchmark/
wget https://huggingface.co/datasets/Hello-SimpleAI/HC3-Chinese/blob/main/open_qa.jsonl

准备测试脚本 deepseekr1_perf.sh 以方便测试不同并发情况下的吞吐情况

#!/bin/bash

# Define the parallel values to test
parallel_values=(100 50 20 10 5 1)

# Loop through each parallel value
for parallel in "${parallel_values[@]}"; do
    # Calculate n value: max(50, parallel * 2)
    n=$((parallel * 2))  # Multiply by 2 using integer math
    n=$((n < 50 ? 50 : n))   # Ensure minimum of 50

    echo "Running test with parallel=$parallel, n=$n"

    llmuses perf \
        --url 'http://192.168.0.4:1025/v1/chat/completions' \
        --parallel $parallel \
        --model 'deepseekr1' \
        --log-every-n-query 10 \
        --read-timeout=200 \
        --dataset-path '/data/benchmark/open_qa.jsonl' \
        -n $n \
        --max-prompt-length 128000 \
        --api openai \
        --dataset openqa

    echo "Test with parallel=$parallel completed"
    echo "----------------------------------------"
done

测试的数据量为并发量的两倍，最小值为 50
超时时间 200 秒
dataset-path 需要设置为第 2 步下载的数据集路径

具体步骤

启动 DeepSeek 671B 模型（全精度满血版/W8A8 量化版）
执行 deepseekr1_perf.sh 获取输出
处理输出数据，形成性能测试结果

测试方案

DeepSeek 671B 模型全精度满血版（BF16）

测试目标

验证 DeepSeek 671B 模型全精度满血版在 4 台 910B 一体机环境下的推理性能。

评测指标

推理吞吐量（tokens/sec）
端到端推理时延（输入到输出所需时间）
NPU 计算负载与功耗
满血版与量化版在精度上的对比
分布式推理中的网络通信开销
内存占用情况

性能测试结果

并发数	成功率	总吞吐<BR/> tokens/秒	每并发<BR/>平均吞吐 <BR/> tokens/秒	输入 tokens	输出 tokens	TTFT（毫秒）	TTFT 分布（毫秒）<BR/>p50<BR/>p90<BR/>p99
1	100%	9.209	9.209	25.318	944.409	75.275	72.662 <BR/> 107.909 <BR/> 117.657
10	100%	83.013	8.3013	23.83	911.78	106.92	91.987 <BR/> 166.432 <BR/> 295.987
20	100%	85.546	4.2773	23.83	900.65	194.888	180.789 <BR/> 286.704 <BR/> 336.625
50	100%	77.29	1.5458	24.056	899.042	356.208	399.241 <BR/> 526.391 <BR/> 570.938

DeepSeek 761B 模型 W8A8 量化版（BF16）

测试目标

评估 W8A8 量化版模型在 2 台 910B 一体机上的推理性能表现。

评测指标

推理吞吐量（tokens/sec）
端到端推理时延
NPU 计算负载与功耗
量化与满血精度对比
分布式推理的网络通信开销
内存占用情况

性能测试结果

并发数	成功率	总吞吐<BR/> tokens/秒	每并发<BR/>平均吞吐 <BR/> tokens/秒	输入 tokens	输出 tokens	TTFT（毫秒）	TTFT 分布（毫秒）<BR/>p50<BR/>p90<BR/>p99
1	100%	11.327	11.327	24.5	948.7	83.753	82.37 <BR/> 99.932 <BR/> 105.167
5	100%	72.504	14.5008	24.5	957.2	61.326	64.967 <BR/> 67.569 <BR/> 67.569
10	100%	105.654	10.5654	24.467	950.867	63.633	66.442 <BR/> 69.751 <BR/> 69.751
20	100%	201.376	10.0688	24.867	895.167	62.216	65.845 <BR/> 72.955 <BR/> 72.957
50	100%	352.811	7.05622	24.107	893.787	85.962	94.119 <BR/> 97.626 <BR/> 110.945
100	100%	618.311	6.18311	24.287	900.287	108.277	111.294 <BR/> 129.565 <BR/> 129.575
100*	100%	805.213	8.05213	24.43	904.34	372.0	296.7 <BR/> 604.2 <BR/> 610.7

备注： "100*" 表示测试中采用了加大 batch size 的策略，此举使响应时间有所增加，但整体吞吐量得到了进一步提升。

结论与推荐

测试结果总结

性能趋势
- 全精度满血版测试：在 4 机环境下，随着并发数提升，推理吞吐量呈现先增后降的趋势（例如，10 并发时达 83 tokens/sec，50 并发时下降至 77 tokens/sec），提示高并发场景下可能受限于资源竞争或通信瓶颈，导致边际性能递减。
- W8A8 量化版测试：在 2 机环境下，量化版模型表现出更高的吞吐量，从单机 11.3 tokens/sec 提升至 100 并发时达到 618 tokens/sec，加大 batch size 后甚至超过 800 tokens/sec，显示出在保持合理精度的前提下，量化策略能够大幅提高推理性能。
响应时延与系统负载
- 全精度满血版的平均延迟随并发数增加明显上升，尤其在 50 并发时延迟达 350 秒以上；
- W8A8 量化版的首包时间及平均延迟整体较为稳定，加大 batch size 虽会延长首包时间，但在整体吞吐与响应的平衡上具有优势。
综合资源利用
综合资源利用评估表明，昇腾 910B 一体机在经过专业调优后能够展现良好的负载调度能力和计算效率。测试结果显示其性能指标符合基本预期，可为特定 AI 推理场景提供硬件支持，但当前性能仍有较大提升空间。

购买建议

根据应用场景选择产品
- 若应用对精度要求极高（例如金融、医疗等对数据准确性要求严格的领域），建议选用全精度满血版设备，尽管吞吐量稍低，但可确保推理结果的精细度。
- 对于要求大规模在线推理、实时响应以及容忍轻微量化误差的场景（如推荐系统、搜索引擎等），W8A8 量化版无疑更具性价比，其高吞吐量和较低延迟能够显著提升系统整体处理能力。
系统部署与优化建议
- 根据测试数据，在实际部署时需合理设置并发数及 batch size，避免过高并发引起响应延时激增；
- 在选型前建议进行小规模试点部署，验证硬件与软件环境（如固件版本、驱动、CANN 与 MindStudio 版本）的兼容性及稳定性，确保最终系统能在生产环境中持续高效运行。
后续支持与技术生态
- 设备采购决策时，还应关注供应商提供的技术支持、固件及软件更新能力，以及生态系统的成熟度，确保在后续运营中得到及时保障与优化服务。

💡 关于满血版本的特别说明

本次测试主要聚焦于可用性验证和初步性能评估，基于目前的方法，我们已在昇腾 910B 上成功优化了量化版 DeepSeek 671B 模型的推理性能。通过这些优化，性能已实现显著提升，而满血版 DeepSeek 671B 模型在相同基础上同样具备优化潜力。

初步的性能数据表明，尽管尚未达到极限性能，但根据当前 profiling 数据，我们已识别出多个优化方向，包括：

✅ Batch Size 策略微调
✅ KV Cache 管理优化
✅ Token 生成窗口与调度策略优化

我们计划在后续阶段进行进一步深入优化，尤其是在调度策略、并发调优以及 KV Cache 管理优化等方面，力求最大化昇腾 910B 在满血版 DeepSeek 671B 模型推理中的性能表现

🧠 作为一支长期深耕大模型与国产算力融合的团队，Spader.AI 已在多个实际场景中实现百亿级模型满载运行，并具备软硬协同优化能力。

我们欢迎关注后续的深度调优报告更新，也期待与您共同探索国产大模型的最优落地路径。

👉 我们知道它还有潜力，也知道该如何挖掘。

附录

满血版测试截图

量化版测试截图

免责声明：本文档提供的信息仅用于参考，具体部署可能需要根据您的实际环境进行调整。如有变更，请以最新官方文档为准。

关于 Spader.AI

Spader.AI，北京与星以舟智能科技有限公司，是一支专注于人工智能与云计算技术的创新团队，致力于推动前沿技术的发展和实际应用。
我们构建高性能、可扩展的 AI 基础设施，提供灵活、安全的智能解决方案，帮助企业轻松应对复杂计算任务，加速 AI 应用落地。我们相信，智能技术应当开放、可及，并真正创造价值。因此，我们不断优化算法与架构，以提升算力效率、降低使用门槛，让人工智能成为推动产业升级的重要驱动力。

如果您对高性价比算力、大模型训练训练及推理以及相关业务场景的技术感兴趣，或者对本篇分享中提到的某些观点有自己的见解希望讨论，扫码秒加 SpaderMan 客服，SpaderMan 会带您入群，和各领域技术大佬共同探讨最前沿的 AI 技术。

本文由博客一文多发平台 OpenWrite 发布！

DeepSeek 在昇腾 910B 能跑多快？实测数据大揭秘！