在 OpenBayes 使用 vLLM 部署 DeepSeek-R1-Distill-Qwen-1.5B 模型

本教程将以 DeepSeek-R1-Distill-Qwen-1.5B 为例，演示如何在 OpenBayes 上使用 vLLM 部署大语言模型。

教程中涉及的「模型部署」功能还在内测中，暂未对全部用户开放，如想体验，可以通过平台右下角的「客服窗口」，或添加小贝微信（微信号：OpenBayes001），联系客服申请开通相关功能。

除此之外，OpenBayes 现在已经开放企业级 DeepSeek & QwQ-32B 部署服务，如有相关需求，请填写以下问卷，收到详细需求后的 3 个工作日内，将有专业人士与您进一步沟通。

问卷地址：企业级 DeepSeek & QwQ-32B 部署服务申请

模型介绍

DeepSeek-R1-Distill-Qwen-1.5B 是一个轻量级的中英双语对话模型：

1.5B 参数量，单卡即可部署
最小显存要求：3GB
推荐显存配置：4GB 及以上

目前该模型已上传至 OpenBayes 公共模型界面，支持一键 input。

模型地址：

https://go.openbayes.com/FWjlR

运行阶段

01 在 Gear 中开发和测试

点击左侧「模型训练」，创建一个新容器。

页面跳转后，选择「RTX 4090」以及「vLLM 0.7.2」基础镜像，OpenBayes 平台提供 4 种计费方式，大家可以按照需求选择「按量付费」或「包日/周/月」。新用户使用下方邀请链接注册，可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长！

小贝总专属邀请链接（直接复制到浏览器打开）：

https://go.openbayes.com/9S6Dr

填写容器名称，在数据绑定这里将「DeepSeek-R1-Distill-Qwen-1.5B」模型绑定到 /openbayes/input/input0 后，点击「执行」。

容器启动后，准备如下「start.sh」脚本：

#!/bin/bash
# 获取 GPU 数量GPU_COUNT=$(nvidia-smi --query-gpu=name --format=csv,noheader | wc -l)
# 设置端口，模型部署默认暴露的端口为 80 而模型训练默认暴露的端口为 8080PORT=8080if [ ! -z "$OPENBAYES_SERVING_PRODUCTION" ]; then    PORT=80fi
# 启动 vLLM 服务echo "Starting vLLM service..."vllm serve /openbayes/input/input0 \
    --served-model-name DeepSeek-R1-Distill-Qwen-1.5B \
    --disable-log-requests \
    --trust-remote-code \
    --host 0.0.0.0 --port $PORT \
    --gpu-memory-utilization 0.98 \
    --max-model-len 8192 --enable-prefix-caching \
    --tensor-parallel-size $GPU_COUNT

输入「bash start.sh」即可在容器中测试服务。

下面是 1 个测试模型推理的 curl 请求示例：

curl -X POST http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "DeepSeek-R1-Distill-Qwen-1.5B",
    "messages": [        
{ 
          "role": "user",
          "content": "请用中文解释什么是大语言模型"  
      }
    ], 
   "temperature": 0.7, 
   "max_tokens": 100
  }'

在 Jupyter 中打开一个新的终端 (Terminal)，粘贴上面的 curl 命令进行测试。

在 Gear 中测试时使用的是 8080 端口，但在模型部署中会自动切换到 80 端口。因为 OpenBayes 的模型部署服务要求必须使用 80 端口对外提供服务。

02 创建模型部署

「模型部署」功能还在内测中，暂未对全部用户开放，如想体验，可以通过平台右下角的「客服窗口」，或添加小贝微信（微信号：OpenBayes001），联系客服申请开通相关功能。

点击左侧「模型部署」，创建新部署。

页面跳转后，填写部署名称，选择「RTX 4090」以及「vLLM 0.7.2」基础镜像，点击「下一步：数据绑定」。

在数据绑定这里，选择「DeepSeek-R1-Distill-Qwen-1.5B」模型，绑定到/openbayes/input/input0，并将刚才容器的工作空间绑定到 /openbayes/home 后，点击「部署」。

待模型部署状态变更为运行中，点击运行的模型部署版本，可以看到当前部署的详细内容以及日志。

03 测试部署

模型部署页面上可以看到 OpenBayes 为模型部署生成的 url，复制 url 后使用下方命令行测试模型是否可用。

curl -X POST http://<模型部署的 url>/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "DeepSeek-R1-Distill-Qwen-1.5B",
    "messages": [ 
       { 
           "role": "user",
           "content": "你好，请介绍一下自己" 
       }
    ],
    "temperature": 0.7,
    "max_tokens": 100
  }'

新用户福利

注册福利： 点击下方邀请链接注册，即可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费算力时长，永久有效！

小贝总专属邀请链接（直接复制到浏览器打开）：

https://go.openbayes.com/9S6Dr

在 OpenBayes 使用 vLLM 部署 DeepSeek-R1-Distill-Qwen-1.5B 模型

模型介绍

运行阶段

新用户福利

OpenBayes

引用和评论

OpenBayes 教程上新丨9 秒处理一张图！In-Context Edit 高效图像编辑框架上线

Open WebUI：开源AI交互平台的全面解析

大模型中的Token究竟是什么？从原理到作用深度解析

一文掌握 MCP 上下文协议：从理论到实践

MySQL × 向量数据库：大模型时代的黄金组合实战指南

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

大模型时代，后端程序员如何避免被AI卷死？