QwQ-32B 是 QwQ 系列的新成员。该模型是 Qwen 团队使用强化学习 (RL) 提升模型性能的新尝试,QwQ-32B 拥有 320 亿参数,性能却可与拥有 6710 亿参数(激活 370 亿)的 DeepSeek-R1 相媲美。此外,该模型还集成了与智能体相关的能力,支持批判性思考、工具使用,并能根据环境反馈调整推理过程。
vLLM 是一款专为高效部署大语言模型设计的开源推理框架,其核心技术通过优化内存管理与计算效率,显著降低了模型推理的硬件门槛。本教程使用 vLLM 部署 QwQ-32B 模型进一步降低了部署成本,满足更多交互场景需求。
教程链接:https://go.openbayes.com/O63pa
使用云平台:OpenBayes
http://openbayes.com/console/signup?r=sony_0m6v
登录 http://OpenBayes.com,在「公共教程」页面,选择键部署 「使用 vLLM 部署 QwQ-32B」教程。
页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
选择「NVIDIA RTX A6000」以及「vLLM」镜像,OpenBayes 平台提供了 4 种计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。可以使用文章开头的邀请链接,获得 RTX 4090 使用时长!
稍等片刻,待系统分配好资源,当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。
进入网页后,即可与模型展开对话。在中间的输入框输入对话内容,模型支持文本输入、图片上传、文件上传和语音输入。
这里我们输入了一道应用题,可以看到模型很快给出了回复。并且相比传统指令调优模型,QwQ 具备思考和推理能力。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。