头图

本教程将以 DeepSeek-R1-Distill-Qwen-1.5B 为例,演示如何在 OpenBayes 上使用 vLLM 部署大语言模型。

教程中涉及的「模型部署」功能还在内测中,暂未对全部用户开放,如想体验,可以通过平台右下角的「客服窗口」,或添加小贝微信(微信号:OpenBayes001),联系客服申请开通相关功能。

除此之外,OpenBayes 现在已经开放企业级 DeepSeek & QwQ-32B 部署服务,如有相关需求,请填写以下问卷,收到详细需求后的 3 个工作日内,将有专业人士与您进一步沟通。

问卷地址:企业级 DeepSeek & QwQ-32B 部署服务申请

模型介绍

DeepSeek-R1-Distill-Qwen-1.5B 是一个轻量级的中英双语对话模型:

  • 1.5B 参数量,单卡即可部署
  • 最小显存要求:3GB
  • 推荐显存配置:4GB 及以上

目前该模型已上传至 OpenBayes 公共模型界面,支持一键 input。

模型地址:

https://go.openbayes.com/FWjlR

运行阶段

01 在 Gear 中开发和测试

  1. 点击左侧「模型训练」,创建一个新容器。

  1. 页面跳转后,选择「RTX 4090」以及「vLLM 0.7.2」基础镜像,OpenBayes 平台提供 4 种计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

小贝总专属邀请链接(直接复制到浏览器打开):

https://go.openbayes.com/9S6Dr

  1. 填写容器名称,在数据绑定这里将「DeepSeek-R1-Distill-Qwen-1.5B」模型绑定到 /openbayes/input/input0 后,点击「执行」。

  1. 容器启动后,准备如下「start.sh」脚本:
#!/bin/bash
# 获取 GPU 数量GPU_COUNT=$(nvidia-smi --query-gpu=name --format=csv,noheader | wc -l)
# 设置端口,模型部署默认暴露的端口为 80 而模型训练默认暴露的端口为 8080PORT=8080if [ ! -z "$OPENBAYES_SERVING_PRODUCTION" ]; then    PORT=80fi
# 启动 vLLM 服务echo "Starting vLLM service..."vllm serve /openbayes/input/input0 \
    --served-model-name DeepSeek-R1-Distill-Qwen-1.5B \
    --disable-log-requests \
    --trust-remote-code \
    --host 0.0.0.0 --port $PORT \
    --gpu-memory-utilization 0.98 \
    --max-model-len 8192 --enable-prefix-caching \
    --tensor-parallel-size $GPU_COUNT
  1. 输入「bash start.sh」即可在容器中测试服务。

下面是 1 个测试模型推理的 curl 请求示例:

curl -X POST http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "DeepSeek-R1-Distill-Qwen-1.5B",
    "messages": [        
{ 
          "role": "user",
          "content": "请用中文解释什么是大语言模型"  
      }
    ], 
   "temperature": 0.7, 
   "max_tokens": 100
  }'
  1. 在 Jupyter 中打开一个新的终端 (Terminal),粘贴上面的 curl 命令进行测试。

  • 在 Gear 中测试时使用的是 8080 端口,但在模型部署中会自动切换到 80 端口。因为 OpenBayes 的模型部署服务要求必须使用 80 端口对外提供服务。

02 创建模型部署

「模型部署」功能还在内测中,暂未对全部用户开放,如想体验,可以通过平台右下角的「客服窗口」,或添加小贝微信(微信号:OpenBayes001),联系客服申请开通相关功能。

  1. 点击左侧「模型部署」,创建新部署。

  1. 页面跳转后,填写部署名称,选择「RTX 4090」以及「vLLM 0.7.2」基础镜像,点击「下一步:数据绑定」。

  1. 在数据绑定这里,选择「DeepSeek-R1-Distill-Qwen-1.5B」模型,绑定到/openbayes/input/input0,并将刚才容器的工作空间绑定到 /openbayes/home 后,点击「部署」。

  1. 待模型部署状态变更为运行中,点击运行的模型部署版本,可以看到当前部署的详细内容以及日志。

03 测试部署

  1. 模型部署页面上可以看到 OpenBayes 为模型部署生成的 url,复制 url 后使用下方命令行测试模型是否可用。
curl -X POST http://<模型部署的 url>/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "DeepSeek-R1-Distill-Qwen-1.5B",
    "messages": [ 
       { 
           "role": "user",
           "content": "你好,请介绍一下自己" 
       }
    ],
    "temperature": 0.7,
    "max_tokens": 100
  }'

新用户福利

注册福利: 点击下方邀请链接注册,即可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费算力时长,永久有效!

小贝总专属邀请链接(直接复制到浏览器打开):

https://go.openbayes.com/9S6Dr


OpenBayes
6 声望1 粉丝

贝式计算是中国领先的高性能计算服务提供商,通过为新一代异构芯片嫁接经典软件生态及机器学习模型,向工业企业及高效科研院所提供更加快速、易用的数据科学计算产品。