与 AI 语音助手聊天时,总感觉哪里怪怪的。它们对问题应答自如,可就是少了点「人味」。语调呆板、停顿突兀,时不时还在莫名其妙的地方卡顿,这种似人非人的违和感,其实就是「恐怖谷效应」在作祟。当 AI 语音与人类语音相似度颇高却又未达到完美一致时,用户便会感到不适。
近期,由 Sesame 团队推出的语音生成模型 CSM (Conversational Speech Model) 在众多语音模型中脱颖而出。该模型采用 Llama 主干架构和轻量级音频解码器,结合端到端 Transformer 框架,能够根据文本和音频输入生成 RVQ 音频代码,进而输出流畅自然、饱含情感的语音,打造出可以带给用户情感需求的语音助手。
相比传统 AI 语音生成模型,CSM 的功能远不止是简单的生成音频:
*更强的情感理解能力:能够深入剖析语境,并灵活的调整语气、声调。
*更自然的对话节奏:对停顿、强调、打断等细节进行精细优化,让交谈更流畅。
*几乎零延迟的体验:高效的推理架构,让语音生成更接近实时,提升交互效率。
「CSM 对话语音生成模型 Demo」教程现已上线至 HyperAI 超神经官网,快来一探究竟!
教程地址:
Demo 运行
1. 登录 hyper.ai,在「教程」页面,选择「CSM 对话语音生成模型 Demo」,点击「在线运行此教程」。
2. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
3. 选择「NVIDIA RTX 4090」以及「PyTorch」镜像,OpenBayes 平台上线了新的计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!
HyperAI 超神经专属邀请链接(直接复制到浏览器打开):
https://go.openbayes.com/9S6Dr
4. 等待分配资源,首次克隆需等待约 2 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。由于模型较大,需等待约 3 分钟显示 WebUI 界面,否则将显示「Bad Gateway」。请注意,用户需在实名认证后才能使用 API 地址访问功能。
效果展示
选择或上传个人音频,输入对话内容,点击「Generate conversation」即可生成对话。
*默认情况下,将由 Speaker A 开启首轮发言,随后 Speaker A 与 Speaker B 交替进行对话交流(目前仅支持英文内容生成)。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。