DeepSeek 开源引发的全球热潮余温尚在,近日,阶跃星辰携手吉利汽车集团再度出手,强势开源了 Step-Audio-TTS-3B 模型,再次引发了业内的广泛讨论。
曾几何时,方言数据的多样性和复杂性、高度的模型泛化能力需求,使得声音克隆模型在方言上表现欠佳, 而 Step-Audio-TTS-3B 则能够生动演绎地方语言的特色。它基于 LLM-Chat 范式大规模合成数据集进行训练,深入洞悉语言的结构,从字里行间把握语言的微妙变化,无论是热情似火的四川话,还是九调六声的粤语,它都能精准抓住其韵律与语气,展现浓浓的地方风情。
不仅如此,它还是首个实现 RAP 与哼唱生成的 TTS 模型,填补了音乐类语音合成的空白。以往创作一段富有韵律的 RAP 内容,需要专业歌手操刀。而如今,借助 Step-Audio-TTS-3B,用户便能迅速生成一段节奏精准,flow 流畅的 RAP 人声,激发无限可能。
目前「Step-Audio-TTS-3B 产品级方言语音生成模型」已上线至 HyperAI超神经官网的「教程」板块, 该教程包含语音合成、音乐合成和语音克隆 3 个功能,快来亲身体验一下吧~
教程地址:
Demo 运行
- 登陆 hyper.ai,在「教程」页面,选择「Step-Audio-TTS-3B 产品级方言语音生成模型」,点击「在线运行此教程」。
- 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
- 选择「NVIDIA RTX A6000」以及「PyTorch」镜像,OpenBayes 平台上线了新的计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!
HyperAI 超神经专属邀请链接(直接复制到浏览器打开):
https://openbayes.com/console/signup?r=Ada0322_QZy7
- 等待分配资源,首次克隆需等待 2 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。
效果展示
该教程包含普通语音合成、音乐合成和语音克隆 3 个功能。
1. 普通语音合成
该功能预设了官方默认语音角色 Tingting 和新增音色哪吒,支持多语言生成、情感、方言等设置。
语音合成音色说明
- 音色 Tingting 由官方提供的 4s 音频 prompt 文件生成
- 音色哪吒由 14s 音频 prompt「我乃哪吒三太子,放纵不羁爱作诗,双手插兜大步走,曲道也能踩成直」文件生成
在 Demo 页面选择「普通语音合成」,输入文本、选择讲话人(默认 Tingting)、选择情感(可选高兴、生气、悲伤和撒娇)、选择语种/方言(可选中文、英文、日语、汉语、四川话、粤语和广东话)、选择语速(可选快速或慢速)。点击「生成语音」即可。
2. 音乐合成
该功能预设官网默认语音角色 Tingting 和新增哪吒音色,支持 RAP 和哼唱。
RAP 音色说明
- 音色 Tingting 由官方提供的 11s 音频 prompt 文件生成
- 音色哪吒由 14s 音频 prompt「天雷滚滚我好怕怕,劈的我浑身掉渣渣,逆天改命我吹喇叭,渡过天劫我笑哈哈,嘀嗒嘀嗒滴滴嗒」文件生成
哼唱音色说明
- 音色 Tingting 由 12s 音频 prompt 文件生成
- 音色哪吒由 14s 音频 prompt「小爷我生来就无畏,管他是老子还是谁,若师父拿出戒尺规,也休想把我来指挥」文件生成
在 Demo 页面选择「音乐合成」,输入文本、选择讲话人(默认 Tingting)、选择模式(RAP 或哼唱)。点击「生成 RAP / 哼唱」即可。
3. 语音克隆
该功能支持用户上传自定义音色音频,生成个性化语音。
在 Demo 页面选择「语音克隆」,输入文本、上传参考音频(.wav 格式)、为克隆声音命名、选择情感(可选高兴、生气、悲伤和撒娇)、选择语种/方言(可选中文、英文、日语、汉语、四川话、粤语和广东话)、选择语速(可选快速或慢速)。点击「生成克隆语音」即可。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。