本教程将以 DeepSeek-R1-Distill-Qwen-1.5B 为例,演示如何在 OpenBayes 上使用 vLLM 部署大语言模型。
教程中涉及的「模型部署」功能还在内测中,暂未对全部用户开放,如想体验,可以通过平台右下角的「客服窗口」,或添加小贝微信(微信号:OpenBayes001),联系客服申请开通相关功能。
除此之外,OpenBayes 现在已经开放企业级 DeepSeek & QwQ-32B 部署服务,如有相关需求,请填写以下问卷,收到详细需求后的 3 个工作日内,将有专业人士与您进一步沟通。
问卷地址:企业级 DeepSeek & QwQ-32B 部署服务申请
模型介绍
DeepSeek-R1-Distill-Qwen-1.5B 是一个轻量级的中英双语对话模型:
- 1.5B 参数量,单卡即可部署
- 最小显存要求:3GB
- 推荐显存配置:4GB 及以上
目前该模型已上传至 OpenBayes 公共模型界面,支持一键 input。
模型地址:
https://go.openbayes.com/FWjlR
运行阶段
01 在 Gear 中开发和测试
- 点击左侧「模型训练」,创建一个新容器。
- 页面跳转后,选择「RTX 4090」以及「vLLM 0.7.2」基础镜像,OpenBayes 平台提供 4 种计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!
小贝总专属邀请链接(直接复制到浏览器打开):
https://go.openbayes.com/9S6Dr
- 填写容器名称,在数据绑定这里将「DeepSeek-R1-Distill-Qwen-1.5B」模型绑定到 /openbayes/input/input0 后,点击「执行」。
- 容器启动后,准备如下「start.sh」脚本:
#!/bin/bash
# 获取 GPU 数量GPU_COUNT=$(nvidia-smi --query-gpu=name --format=csv,noheader | wc -l)
# 设置端口,模型部署默认暴露的端口为 80 而模型训练默认暴露的端口为 8080PORT=8080if [ ! -z "$OPENBAYES_SERVING_PRODUCTION" ]; then PORT=80fi
# 启动 vLLM 服务echo "Starting vLLM service..."vllm serve /openbayes/input/input0 \
--served-model-name DeepSeek-R1-Distill-Qwen-1.5B \
--disable-log-requests \
--trust-remote-code \
--host 0.0.0.0 --port $PORT \
--gpu-memory-utilization 0.98 \
--max-model-len 8192 --enable-prefix-caching \
--tensor-parallel-size $GPU_COUNT
- 输入「bash start.sh」即可在容器中测试服务。
下面是 1 个测试模型推理的 curl 请求示例:
curl -X POST http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "DeepSeek-R1-Distill-Qwen-1.5B",
"messages": [
{
"role": "user",
"content": "请用中文解释什么是大语言模型"
}
],
"temperature": 0.7,
"max_tokens": 100
}'
- 在 Jupyter 中打开一个新的终端 (Terminal),粘贴上面的 curl 命令进行测试。
- 在 Gear 中测试时使用的是 8080 端口,但在模型部署中会自动切换到 80 端口。因为 OpenBayes 的模型部署服务要求必须使用 80 端口对外提供服务。
02 创建模型部署
「模型部署」功能还在内测中,暂未对全部用户开放,如想体验,可以通过平台右下角的「客服窗口」,或添加小贝微信(微信号:OpenBayes001),联系客服申请开通相关功能。
- 点击左侧「模型部署」,创建新部署。
- 页面跳转后,填写部署名称,选择「RTX 4090」以及「vLLM 0.7.2」基础镜像,点击「下一步:数据绑定」。
- 在数据绑定这里,选择「DeepSeek-R1-Distill-Qwen-1.5B」模型,绑定到/openbayes/input/input0,并将刚才容器的工作空间绑定到 /openbayes/home 后,点击「部署」。
- 待模型部署状态变更为运行中,点击运行的模型部署版本,可以看到当前部署的详细内容以及日志。
03 测试部署
- 模型部署页面上可以看到 OpenBayes 为模型部署生成的 url,复制 url 后使用下方命令行测试模型是否可用。
curl -X POST http://<模型部署的 url>/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "DeepSeek-R1-Distill-Qwen-1.5B",
"messages": [
{
"role": "user",
"content": "你好,请介绍一下自己"
}
],
"temperature": 0.7,
"max_tokens": 100
}'
新用户福利
注册福利: 点击下方邀请链接注册,即可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费算力时长,永久有效!
小贝总专属邀请链接(直接复制到浏览器打开):
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。