PD分离是一种近年来兴起的推理加速部署方案,kimi、deepseek都进行了工程落地。昇腾MindIE组件也支持了PD分离部署能力,参考链接为 https://www.hiascend.com/document/detail/zh/mindie/20RC1/mind... 。部署过程中会出现一些问题,在这里记录分享一下。
单机部署
Q:运行deploy.sh 报错 core dump
A:大概率是选择了错误了 镜像,例如A2的机器使用了A3的镜像。
Q:运行deploy.sh 后,pods的状态为UnexpectedAdmissionError
A:mindie_service_single_container.yaml配置文件中,resources/requests/huawei.com/Ascend910的值目前只能为8,小于8会触发报错。
多机部署
Q:运行deploy.sh 后,coordinator一直显示not ready
A:可能是没有配置正确的rank_table_file,导致P、D节点没有拿到device信息,不能载入模型,解决方案参考 https://zhuanlan.zhihu.com/p/1900192566378497634 。
Q:拉起k8s失败,输出 kubectl get configmap rings-config-mindie-server-p0...
A:可能是之前的进程没有删除干净;deployment目录下面的yaml文件的配置可能需要修改,如果是单机16卡,则npu的卡数需要改成16;可以查看 /var/log/mindx-dl/ascend-operator的日志,检查是否有json文件的格式错误。
参数配置建议
使用benchmark工具发送请求。
llama3-8B
卡数 | 输入输出 | concurrency | 发送频率 | prefill_bs | decode_bs | |
---|---|---|---|---|---|---|
PD混部 | 1 | 257-60 | 7 | 10 | 100 | |
PD分离 | 2+3 | 257-60 | 1000 | 93 | 2 | 18 |
本文由博客一文多发平台 OpenWrite 发布!
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。