在线教程 | CSM 驾到，统统闪开！更鲜活的语音生成，从此告别延迟呆板机械味

超神经HyperAI

阅读 2 分钟

0

与 AI 语音助手聊天时，总感觉哪里怪怪的。它们对问题应答自如，可就是少了点「人味」。语调呆板、停顿突兀，时不时还在莫名其妙的地方卡顿，这种似人非人的违和感，其实就是「恐怖谷效应」在作祟。当 AI 语音与人类语音相似度颇高却又未达到完美一致时，用户便会感到不适。

近期，由 Sesame 团队推出的语音生成模型 CSM (Conversational Speech Model) 在众多语音模型中脱颖而出。该模型采用 Llama 主干架构和轻量级音频解码器，结合端到端 Transformer 框架，能够根据文本和音频输入生成 RVQ 音频代码，进而输出流畅自然、饱含情感的语音，打造出可以带给用户情感需求的语音助手。

相比传统 AI 语音生成模型，CSM 的功能远不止是简单的生成音频：

*更强的情感理解能力：能够深入剖析语境，并灵活的调整语气、声调。

*更自然的对话节奏：对停顿、强调、打断等细节进行精细优化，让交谈更流畅。

*几乎零延迟的体验：高效的推理架构，让语音生成更接近实时，提升交互效率。

「CSM 对话语音生成模型 Demo」教程现已上线至 HyperAI 超神经官网，快来一探究竟！

教程地址：

https://go.hyper.ai/e0HQn

Demo 运行

1. 登录 hyper.ai，在「教程」页面，选择「CSM 对话语音生成模型 Demo」，点击「在线运行此教程」。

2. 页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

3. 选择「NVIDIA RTX 4090」以及「PyTorch」镜像，OpenBayes 平台上线了新的计费方式，大家可以按照需求选择「按量付费」或「包日/周/月」，点击「继续执行」。新用户使用下方邀请链接注册，可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长！

HyperAI 超神经专属邀请链接（直接复制到浏览器打开）：

https://go.openbayes.com/9S6Dr

4. 等待分配资源，首次克隆需等待约 2 分钟左右的时间。当状态变为「运行中」后，点击「API 地址」旁边的跳转箭头，即可跳转至 Demo 页面。由于模型较大，需等待约 3 分钟显示 WebUI 界面，否则将显示「Bad Gateway」。请注意，用户需在实名认证后才能使用 API 地址访问功能。

效果展示

选择或上传个人音频，输入对话内容，点击「Generate conversation」即可生成对话。

*默认情况下，将由 Speaker A 开启首轮发言，随后 Speaker A 与 Speaker B 交替进行对话交流（目前仅支持英文内容生成）。

本文系转载，阅读原文

https://hyper.ai/cn/news/38459

阅读 739发布于 3 月 24 日

超神经HyperAI

1.4k 声望8.8k 粉丝

« 上一篇

AlphaFold 应用新里程碑！剑桥大学团队提出 AlphaFold-Metainference，精准预测无序蛋白质结构集合

下一篇 »

扩散模型×音乐生成，DiffRhythm 分分钟完成歌曲创作！低门槛部署大语言模型，MiniMind 数据集重磅开源

引用和评论

推荐阅读

10 大医学数据集汇总：覆盖问答/推理/真实临床记录/超声图像/CT 影像……

超神经HyperAI

扩散模型×音乐生成，DiffRhythm 分分钟完成歌曲创作！低门槛部署大语言模型，MiniMind 数据集重磅开源

超神经HyperAI赞 1阅读 1.1k

华科大/上海 AI Lab/上海交大科研先锋深度分享：最新成果，顶会投稿经验，跨学科合作挑战……

超神经HyperAI赞 1阅读 965

在线教程丨单卡 A6000 轻松部署 Gemma 3，精准识别黄仁勋演讲实拍

超神经HyperAI赞 1阅读 940

AlphaFold 应用新里程碑！剑桥大学团队提出 AlphaFold-Metainference，精准预测无序蛋白质结构集合

超神经HyperAI赞 2阅读 894

GTC 2025 丨不止芯片，黄仁勋半小时内狂轰多项 Physical AI 新成果，全部开源

超神经HyperAI赞 1阅读 849

准确率远超初级皮肤科医生，北大国际医院等开发深度学习算法，实现痤疮病变检测与分级

超神经HyperAI赞 1阅读 940

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。