Qwen3 系列全家桶包含了 8 款不同尺寸的模型,覆盖了从 6 亿到 2350 亿的参数规模。其中 2 款混合专家(MoE)模型和 6 款稠密(Dense)模型,均支持「混合推理」机制。
目前,百度百舸平台已经同步支持 Qwen3 系列全家桶的一键部署,为企业提供一站式 AI 服务,实现大模型落地「快稳省」的要求。
一键部署流程
登录百度百舸·AI 异构计算平台,在「快速开始」找到 Qwen3 系列模型。
点击模型卡片的「一键部署」开始部署模型。目前 Qwen3 系列模型支持 SGLang、vLLM 推理加速方式。
百度百舸平台已推荐部署不同模型的最低配置资源,您可以按需修改。(注意:需要提前购买算力资源,并在百度百舸平台创建自运维或全托管资源池)
部署成功后,通过「在线服务」列表中查看服务调用信息,获取调用地址和 Token 调用服务。
百度百舸·AI 异构计算平台,是面向大模型训推一体化的基础设施,提供领先的 AI 工程加速能力,从资源准备、模型开发、模型训练到模型部署,为 AI 工程全周期提供丰富特性和极致易用体验。
针对大模型 PD 分离式推理部署方案,百度百舸平台支持自适应 PD 任意配比、细粒度 PD 负载均衡、自适应最优混合并行策略、动态冗余专家编排等,降低 40% TPOT 和 95% 推理成本,实现了极致的推理加速优化。
这套方案正在支撑百度智能云千帆平台,为 40 万客户提供服务。上线以来,推理吞吐提升了 20 倍,速度提升了 50% 以上。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。