CSM (Conversational Speech Model) 是由 Sesame 团队于 2025 年开发的对话语音模型,旨在通过自然、连贯的语音生成技术提升语音助手的情感交互能力。该模型基于多模态学习框架,结合文本和语音数据,采用端到端的 Transformer 架构直接生成自然且富有情感的语音,可根据文本和音频输入生成 RVQ 音频代码。该模型架构采用 Llama 主干和可生成 Mimi 音频代码的小型音频解码器。
教程链接:https://go.openbayes.com/IbrqN
使用云平台:OpenBayes
http://openbayes.com/console/signup?r=sony_0m6v
登录 http://OpenBayes.com,在「公共教程」页面,选择键部署 「CSM 双人对话语音生成 Demo」教程。
页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
选择「NVIDIA GeForce RTX 4090」以及「PyTorch」镜像,OpenBayes 平台提供了 4 种计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。可以使用文章开头的邀请链接,获得 RTX 4090 使用时长!
待系统分配好资源,当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。
进入模型后,在「Voices」一栏下选择或上传个人音频,模型会根据上传的音频克隆音色。如果上传个人音频,需要将音频文件和音频内容一起添加。
然后在「Conversation content」中输入对话内容,默认第一行为 Speaker A,第二行为 Speaker B,以此递推。最后点击「Generate conversation」生成。
*conversation:
Hey how are you doing.
Pretty good, pretty good.
I'm great, so happy to be speaking to you.
Me too, this is some cool stuff huh?
Yeah, I've been reading more about speech generation, and it really seems like context is important.
Definitely.
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。