公共资源速递
7 个教程:
- 一键部署 MegaTTS3*
- Dia-1.6B:情感语音合成 Demo*
- FramePack 低显存视频生成 Demo*
- Baichuan-Audio 开源端到端语音交互基座*
- InstantCharacter:生成任意个性化角色行为*
- 使用 vLLM+Open WebUI 部署 GLM-4-32B*
- 使用 vLLM+Open WebUI 部署 Qwen3 系列模型
- 访问官网立即使用:openbayes.com
* 公共教程
一键部署 MegaTTS3
MegaTTS 3 是一种具有创新稀疏对齐的 TTS 系统引导潜在扩散转换器 (DiT) 的算法,主要用于将输入的文本转换为高质量、自然流畅的语音输出。MegaTTS 3 实现了最先进的零样本 TTS 语音质量,并支持对口音强度的高度灵活控制。直接克隆并打开 API 地址即可运行模型。* 在线运行:https://go.openbayes.com/aXagO
模型示例
2. Dia-1.6B:情感语音合成 Demo
Dia-1.6B 能够直接从文本脚本生成高度逼真的对话,并支持基于音频的情感和语调控制。此外,Dia-1.6B 还可以生成非语言交流的声音,如笑声、咳嗽声、清喉咙声等,使对话更加自然和生动。该模型不仅支持多角色对话生成,还能通过 [S1]、[S2] 等标签区分角色,单次生成多角色对话,保持自然节奏和情感过渡。该教程现已上线 OpenBayes 公共教程界面,支持上传自己的音频样本,模型将根据样本生成相似的语音,实现零样本声纹克隆。* 在线运行:https://go.openbayes.com/wMlTX
模型使用步骤
- FramePack 低显存视频生成 Demo
FramePack 通过创新的神经网络架构,有效解决了传统视频生成中显存占用高、漂移和遗忘等问题,并显著降低了硬件要求。仅需 6 GB 即可生成 120 秒全帧率视频。点击下方链接,立即开启创作之旅,体验低门槛视频生成。* 在线运行:https://go.openbayes.com/qZjVU
功能演示
4. Baichuan-Audio 开源端到端语音交互基座
Baichuan-Audio 是 Baichuan 最新的端到端训练的语音交互大模型,无缝集成了音频理解和生成功能,支持高质量可控的中英双语实时对话。相关代码已配置完成,点击下方链接,快速体验定制化对话生成。* 在线运行:https://go.openbayes.com/9UO33
模型示例
5. InstantCharacter:生成任意个性化角色行为
InstantCharacter 是一种创新的免调优方法,旨在实现从单个图像生成字符保留,从而支持各种下游任务。定性实验证明了 InstantCharacter 在生成高保真、文本可控和字符一致的图像方面的高级功能,为字符驱动的图像生成树立了新的基准。相关代码已配置完成,点击下方链接即可体验个性化图像生成。* 在线运行:https://go.openbayes.com/3vVxA
模型效果演示
6. 使用 vLLM+Open WebUI 部署 GLM-4-32BGLM-4-32B
拥有 320 亿个参数,性能媲美 OpenAI 的 GPT 系列和 DeepSeek 的 V3/R1 系列,并支持非常友好的本地部署功能。GLM-4-32B-Base-0414 已在 15T 高质量数据上进行预训练,其中包含大量推理类合成数据,为后续的强化学习扩展奠定了基础。该教程现已上线 OpenBayes 公共教程界面,一键克隆即可启动。* 在线运行:https://go.openbayes.com/17Ecf
模型使用步骤
7. 使用 vLLM+Open WebUI 部署 Qwen3 系列模型
Qwen3 是 Qwen 系列中最新一代大语言模型,提供全面的密集 (Dense) 模型和混合专家 (MoE) 模型。它支持文本、图像、音频和视频处理,能够满足多模态内容创作和跨模态任务的需求。在企业级应用中,Qwen3 的 Agent 能力和多语言支持使其能够胜任医疗诊断、法律文档分析和客服自动化等复杂任务。此外,小型模型如 Qwen3-0.6B 适合在手机等端侧设备上部署,进一步拓展了其应用场景。该教程提供了多个参数的模型,可根据需求更换。点击下方链接快速体验。* 在线运行:https://go.openbayes.com/nX4FS
模型界面示例
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。