头图

DeepSeek 开源引发的全球热潮余温尚在,近日,阶跃星辰携手吉利汽车集团再度出手,强势开源了 Step-Audio-TTS-3B 模型,再次引发了业内的广泛讨论。

曾几何时,方言数据的多样性和复杂性、高度的模型泛化能力需求,使得声音克隆模型在方言上表现欠佳, 而 Step-Audio-TTS-3B 则能够生动演绎地方语言的特色。它基于 LLM-Chat 范式大规模合成数据集进行训练,深入洞悉语言的结构,从字里行间把握语言的微妙变化,无论是热情似火的四川话,还是九调六声的粤语,它都能精准抓住其韵律与语气,展现浓浓的地方风情。

不仅如此,它还是首个实现 RAP 与哼唱生成的 TTS 模型,填补了音乐类语音合成的空白。以往创作一段富有韵律的 RAP 内容,需要专业歌手操刀。而如今,借助 Step-Audio-TTS-3B,用户便能迅速生成一段节奏精准,flow 流畅的 RAP 人声,激发无限可能。

目前「Step-Audio-TTS-3B 产品级方言语音生成模型」已上线至 HyperAI超神经官网的「教程」板块, 该教程包含语音合成、音乐合成和语音克隆 3 个功能,快来亲身体验一下吧~

教程地址

https://go.hyper.ai/QrTmW

Demo 运行

  1. 登陆 hyper.ai,在「教程」页面,选择「Step-Audio-TTS-3B 产品级方言语音生成模型」,点击「在线运行此教程」。

在这里插入图片描述

在这里插入图片描述

  1. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

在这里插入图片描述

  1. 选择「NVIDIA RTX A6000」以及「PyTorch」镜像,OpenBayes 平台上线了新的计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

HyperAI 超神经专属邀请链接(直接复制到浏览器打开):

https://openbayes.com/console/signup?r=Ada0322_QZy7

在这里插入图片描述

在这里插入图片描述

  1. 等待分配资源,首次克隆需等待 2 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

效果展示

该教程包含普通语音合成、音乐合成和语音克隆 3 个功能。

1. 普通语音合成

该功能预设了官方默认语音角色 Tingting 和新增音色哪吒,支持多语言生成、情感、方言等设置。

语音合成音色说明

  • 音色 Tingting 由官方提供的 4s 音频 prompt 文件生成
  • 音色哪吒由 14s 音频 prompt「我乃哪吒三太子,放纵不羁爱作诗,双手插兜大步走,曲道也能踩成直」文件生成

在 Demo 页面选择「普通语音合成」,输入文本、选择讲话人(默认 Tingting)、选择情感(可选高兴、生气、悲伤和撒娇)、选择语种/方言(可选中文、英文、日语、汉语、四川话、粤语和广东话)、选择语速(可选快速或慢速)。点击「生成语音」即可。

在这里插入图片描述

2. 音乐合成

该功能预设官网默认语音角色 Tingting 和新增哪吒音色,支持 RAP 和哼唱。

RAP 音色说明

  • 音色 Tingting 由官方提供的 11s 音频 prompt 文件生成
  • 音色哪吒由 14s 音频 prompt「天雷滚滚我好怕怕,劈的我浑身掉渣渣,逆天改命我吹喇叭,渡过天劫我笑哈哈,嘀嗒嘀嗒滴滴嗒」文件生成

哼唱音色说明

  • 音色 Tingting 由 12s 音频 prompt 文件生成
  • 音色哪吒由 14s 音频 prompt「小爷我生来就无畏,管他是老子还是谁,若师父拿出戒尺规,也休想把我来指挥」文件生成

在 Demo 页面选择「音乐合成」,输入文本、选择讲话人(默认 Tingting)、选择模式(RAP 或哼唱)。点击「生成 RAP / 哼唱」即可。

在这里插入图片描述

3. 语音克隆

该功能支持用户上传自定义音色音频,生成个性化语音。

在 Demo 页面选择「语音克隆」,输入文本、上传参考音频(.wav 格式)、为克隆声音命名、选择情感(可选高兴、生气、悲伤和撒娇)、选择语种/方言(可选中文、英文、日语、汉语、四川话、粤语和广东话)、选择语速(可选快速或慢速)。点击「生成克隆语音」即可。

在这里插入图片描述


超神经HyperAI
1.3k 声望8.8k 粉丝