作者:_SpaderMan_

DeepSeek 在昇腾 910B 能跑多快?实测数据大揭秘!

本报告基于华为昇腾 910B NPU 平台,针对 AI 大模型推理场景进行了全面测试。报告内容涵盖测试背景、环境、方案及性能数据,重点对满血版(全精度)与量化版(w8a8)的 DeepSeek 671B 模型进行评估,并在结论部分给出综合性能分析及采购建议,为企业在高性能 AI 推理应用场景中的设备选型提供参考。

注意

  • 所用驱动的版本及相关软件不排除官方近期有版本更新,建议更新到最新版驱动已获得更好的性能提升。

测试概述

测试背景

昇腾 910B 一体机由华为基于昇腾 910B NPU 设计,专注于大规模 AI 训练与推理。为验证该设备在大模型推理场景下的实际表现,本次测试主要考察了吞吐量、响应时延、资源利用及功耗情况,同时比较了模型满血版(全精度)与量化版本(W8A8)的性能差异。

测试环境

详细的环境配置及搭建步骤可参考本公众号上一篇的分享,如需复刻此测试,可联系 Spader.AI 申请 910B 裸金属测试资源。

硬件配置
组件规格
CPUKunpeng 920 192 核(4×48 核,2.6GHz)
NPUAscend 910B 64G(每机 8 片) HCCS
网络8×200G RoCE v2
内存2048GB
存储系统盘:2×480GB SATA SSD;数据盘:4×3.2T NVMe
软件环境
组件版本/说明
操作系统Ubuntu 22.04 64 位 for ARM
固件7.5.0.1.129
昇腾驱动24.1.rc3
镜像mindie 2.0.T3 PoC 版本(2.0.T3-800I-A2-py311-openeuler24.03-lts)
MindIE2.0.T3
CANN8.0.T63
PTA6.0.T700
MindStudioMsit: br_noncom_MindStudio_8.0.0_POC_20251231 分支
HDK24.1.0
Python 环境3.11(镜像预置)
测试模型
  • 671B 模型(全精度满血版)
  • 671B 模型(W8A8 量化版)

测试流程

准备工作
  1. 安装 llmuses 测试工具
pip3 install llmuses
  1. 下载测试数据集

采用的数据集为  open_qa.jsonl">open_qa.jsonl,也可根据业务情况切换

cd /data/benchmark/
wget https://huggingface.co/datasets/Hello-SimpleAI/HC3-Chinese/blob/main/open_qa.jsonl
  1. 准备测试脚本 deepseekr1_perf.sh 以方便测试不同并发情况下的吞吐情况
#!/bin/bash

# Define the parallel values to test
parallel_values=(100 50 20 10 5 1)

# Loop through each parallel value
for parallel in "${parallel_values[@]}"; do
    # Calculate n value: max(50, parallel * 2)
    n=$((parallel * 2))  # Multiply by 2 using integer math
    n=$((n < 50 ? 50 : n))   # Ensure minimum of 50

    echo "Running test with parallel=$parallel, n=$n"

    llmuses perf \
        --url 'http://192.168.0.4:1025/v1/chat/completions' \
        --parallel $parallel \
        --model 'deepseekr1' \
        --log-every-n-query 10 \
        --read-timeout=200 \
        --dataset-path '/data/benchmark/open_qa.jsonl' \
        -n $n \
        --max-prompt-length 128000 \
        --api openai \
        --dataset openqa

    echo "Test with parallel=$parallel completed"
    echo "----------------------------------------"
done
  1. 测试的数据量为并发量的两倍,最小值为 50
  2. 超时时间 200 秒
  3. dataset-path 需要设置为第 2 步下载的数据集路径
具体步骤
  1. 启动 DeepSeek 671B 模型(全精度满血版/W8A8 量化版)
  2. 执行 deepseekr1_perf.sh 获取输出
  3. 处理输出数据,形成性能测试结果

测试方案

DeepSeek 671B 模型全精度满血版(BF16)

测试目标

验证 DeepSeek 671B 模型全精度满血版在 4 台 910B 一体机环境下的推理性能。

评测指标
  • 推理吞吐量(tokens/sec)
  • 端到端推理时延(输入到输出所需时间)
  • NPU 计算负载与功耗
  • 满血版与量化版在精度上的对比
  • 分布式推理中的网络通信开销
  • 内存占用情况
性能测试结果
并发数成功率总吞吐<BR/> tokens/秒每并发<BR/>平均吞吐 <BR/> tokens/秒输入 tokens输出 tokensTTFT(毫秒)TTFT 分布(毫秒)<BR/>p50<BR/>p90<BR/>p99
1100%9.2099.20925.318944.40975.27572.662 <BR/> 107.909 <BR/> 117.657
10100%83.0138.301323.83911.78106.9291.987 <BR/> 166.432 <BR/> 295.987
20100%85.5464.277323.83900.65194.888180.789 <BR/> 286.704 <BR/> 336.625
50100%77.291.545824.056899.042356.208399.241 <BR/> 526.391 <BR/> 570.938

DeepSeek 761B 模型 W8A8 量化版(BF16)

测试目标

评估 W8A8 量化版模型在 2 台 910B 一体机上的推理性能表现。

评测指标
  • 推理吞吐量(tokens/sec)
  • 端到端推理时延
  • NPU 计算负载与功耗
  • 量化与满血精度对比
  • 分布式推理的网络通信开销
  • 内存占用情况
性能测试结果
并发数成功率总吞吐<BR/> tokens/秒每并发<BR/>平均吞吐 <BR/> tokens/秒输入 tokens输出 tokensTTFT(毫秒)TTFT 分布(毫秒)<BR/>p50<BR/>p90<BR/>p99
1100%11.32711.32724.5948.783.75382.37 <BR/> 99.932 <BR/> 105.167
5100%72.50414.500824.5957.261.32664.967 <BR/> 67.569 <BR/> 67.569
10100%105.65410.565424.467950.86763.63366.442 <BR/> 69.751 <BR/> 69.751
20100%201.37610.068824.867895.16762.21665.845 <BR/> 72.955 <BR/> 72.957
50100%352.8117.0562224.107893.78785.96294.119 <BR/> 97.626 <BR/> 110.945
100100%618.3116.1831124.287900.287108.277111.294 <BR/> 129.565 <BR/> 129.575
100*100%805.2138.0521324.43904.34372.0296.7 <BR/> 604.2 <BR/> 610.7

备注: "100*" 表示测试中采用了加大 batch size 的策略,此举使响应时间有所增加,但整体吞吐量得到了进一步提升。

结论与推荐

测试结果总结

  • 性能趋势

    • 全精度满血版测试:在 4 机环境下,随着并发数提升,推理吞吐量呈现先增后降的趋势(例如,10 并发时达 83 tokens/sec,50 并发时下降至 77 tokens/sec),提示高并发场景下可能受限于资源竞争或通信瓶颈,导致边际性能递减。
    • W8A8 量化版测试:在 2 机环境下,量化版模型表现出更高的吞吐量,从单机 11.3 tokens/sec 提升至 100 并发时达到 618 tokens/sec,加大 batch size 后甚至超过 800 tokens/sec,显示出在保持合理精度的前提下,量化策略能够大幅提高推理性能。
  • 响应时延与系统负载

    • 全精度满血版的平均延迟随并发数增加明显上升,尤其在 50 并发时延迟达 350 秒以上;
    • W8A8 量化版的首包时间及平均延迟整体较为稳定,加大 batch size 虽会延长首包时间,但在整体吞吐与响应的平衡上具有优势。
  • 综合资源利用

    综合资源利用评估表明,昇腾 910B 一体机在经过专业调优后能够展现良好的负载调度能力和计算效率。测试结果显示其性能指标符合基本预期,可为特定 AI 推理场景提供硬件支持,但当前性能仍有较大提升空间。

购买建议

  • 根据应用场景选择产品

    • 若应用对精度要求极高(例如金融、医疗等对数据准确性要求严格的领域),建议选用全精度满血版设备,尽管吞吐量稍低,但可确保推理结果的精细度。
    • 对于要求大规模在线推理、实时响应以及容忍轻微量化误差的场景(如推荐系统、搜索引擎等),W8A8 量化版无疑更具性价比,其高吞吐量和较低延迟能够显著提升系统整体处理能力。
  • 系统部署与优化建议

    • 根据测试数据,在实际部署时需合理设置并发数及 batch size,避免过高并发引起响应延时激增;
    • 在选型前建议进行小规模试点部署,验证硬件与软件环境(如固件版本、驱动、CANN 与 MindStudio 版本)的兼容性及稳定性,确保最终系统能在生产环境中持续高效运行。
  • 后续支持与技术生态

    • 设备采购决策时,还应关注供应商提供的技术支持、固件及软件更新能力,以及生态系统的成熟度,确保在后续运营中得到及时保障与优化服务。

💡 关于满血版本的特别说明

本次测试主要聚焦于可用性验证和初步性能评估,基于目前的方法,我们已在昇腾 910B 上成功优化了量化版 DeepSeek 671B 模型的推理性能。通过这些优化,性能已实现显著提升,而满血版 DeepSeek 671B 模型在相同基础上同样具备优化潜力。

初步的性能数据表明,尽管尚未达到极限性能,但根据当前 profiling 数据,我们已识别出多个优化方向,包括:

✅ Batch Size 策略微调
✅ KV Cache 管理优化
✅ Token 生成窗口与调度策略优化

我们计划在后续阶段进行进一步深入优化,尤其是在调度策略、并发调优以及 KV Cache 管理优化等方面,力求最大化昇腾 910B 在满血版 DeepSeek 671B 模型推理中的性能表现

🧠 作为一支长期深耕大模型与国产算力融合的团队,Spader.AI 已在多个实际场景中实现百亿级模型满载运行,并具备软硬协同优化能力。

我们欢迎关注后续的深度调优报告更新,也期待与您共同探索国产大模型的最优落地路径。


👉 我们知道它还有潜力,也知道该如何挖掘。

附录

满血版测试截图

deepseekr1_pref_1.png
deepseekr1_pref_10.png
deepseekr1_pref_20.png
deepseekr1_pref_50.png

量化版测试截图

deepseekr1_w8a8_pref_1.png
deepseekr1_w8a8_pref_5.png
deepseekr1_w8a8_pref_10.png
deepseekr1_w8a8_pref_20.png
deepseekr1_w8a8_pref_50.png
deepseekr1_w8a8_pref_100-1.png
deepseekr1_w8a8_pref_100-2.png


免责声明:本文档提供的信息仅用于参考,具体部署可能需要根据您的实际环境进行调整。如有变更,请以最新官方文档为准。

关于 Spader.AI

Spader.AI,北京与星以舟智能科技有限公司,是一支专注于人工智能与云计算技术的创新团队,致力于推动前沿技术的发展和实际应用。
我们构建高性能、可扩展的 AI 基础设施,提供灵活、安全的智能解决方案,帮助企业轻松应对复杂计算任务,加速 AI 应用落地。我们相信,智能技术应当开放、可及,并真正创造价值。因此,我们不断优化算法与架构,以提升算力效率、降低使用门槛,让人工智能成为推动产业升级的重要驱动力。

如果您对高性价比算力、大模型训练训练及推理以及相关业务场景的技术感兴趣,或者对本篇分享中提到的某些观点有自己的见解希望讨论,扫码秒加 SpaderMan 客服,SpaderMan 会带您入群,和各领域技术大佬共同探讨最前沿的 AI 技术。

本文由博客一文多发平台 OpenWrite 发布!

Spader_AI
1 声望0 粉丝

Spader.AI 是一支专注于人工智能与云计算技术的创新团队,致力于推动前沿技术的发展和实际应用。我们的使命是构建开放、高效、智能的技术生态,助力各行业实现数字化转型和智能升级。