在线教程丨石矶娘娘秒变「川渝妹子」？Step-Audio-TTS实现语音克隆/音乐合成/语音合成三合一

超神经HyperAI

2 月 25 日河北

阅读 3 分钟

0

DeepSeek 开源引发的全球热潮余温尚在，近日，阶跃星辰携手吉利汽车集团再度出手，强势开源了 Step-Audio-TTS-3B 模型，再次引发了业内的广泛讨论。

曾几何时，方言数据的多样性和复杂性、高度的模型泛化能力需求，使得声音克隆模型在方言上表现欠佳， 而 Step-Audio-TTS-3B 则能够生动演绎地方语言的特色。它基于 LLM-Chat 范式大规模合成数据集进行训练，深入洞悉语言的结构，从字里行间把握语言的微妙变化，无论是热情似火的四川话，还是九调六声的粤语，它都能精准抓住其韵律与语气，展现浓浓的地方风情。

不仅如此，它还是首个实现 RAP 与哼唱生成的 TTS 模型，填补了音乐类语音合成的空白。以往创作一段富有韵律的 RAP 内容，需要专业歌手操刀。而如今，借助 Step-Audio-TTS-3B，用户便能迅速生成一段节奏精准，flow 流畅的 RAP 人声，激发无限可能。

目前「Step-Audio-TTS-3B 产品级方言语音生成模型」已上线至 HyperAI超神经官网的「教程」板块， 该教程包含语音合成、音乐合成和语音克隆 3 个功能，快来亲身体验一下吧~

教程地址：

https://go.hyper.ai/QrTmW

Demo 运行

登陆 hyper.ai，在「教程」页面，选择「Step-Audio-TTS-3B 产品级方言语音生成模型」，点击「在线运行此教程」。

在这里插入图片描述

在这里插入图片描述

页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

在这里插入图片描述

选择「NVIDIA RTX A6000」以及「PyTorch」镜像，OpenBayes 平台上线了新的计费方式，大家可以按照需求选择「按量付费」或「包日/周/月」，点击「继续执行」。新用户使用下方邀请链接注册，可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长！

HyperAI 超神经专属邀请链接（直接复制到浏览器打开）：

https://openbayes.com/console/signup?r=Ada0322_QZy7

在这里插入图片描述

在这里插入图片描述

等待分配资源，首次克隆需等待 2 分钟左右的时间。当状态变为「运行中」后，点击「API 地址」旁边的跳转箭头，即可跳转至 Demo 页面。请注意，用户需在实名认证后才能使用 API 地址访问功能。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

效果展示

该教程包含普通语音合成、音乐合成和语音克隆 3 个功能。

1. 普通语音合成

该功能预设了官方默认语音角色 Tingting 和新增音色哪吒，支持多语言生成、情感、方言等设置。

语音合成音色说明

音色 Tingting 由官方提供的 4s 音频 prompt 文件生成
音色哪吒由 14s 音频 prompt「我乃哪吒三太子,放纵不羁爱作诗,双手插兜大步走,曲道也能踩成直」文件生成

在 Demo 页面选择「普通语音合成」，输入文本、选择讲话人（默认 Tingting）、选择情感（可选高兴、生气、悲伤和撒娇）、选择语种/方言（可选中文、英文、日语、汉语、四川话、粤语和广东话）、选择语速（可选快速或慢速）。点击「生成语音」即可。

在这里插入图片描述

2. 音乐合成

该功能预设官网默认语音角色 Tingting 和新增哪吒音色，支持 RAP 和哼唱。

RAP 音色说明

音色 Tingting 由官方提供的 11s 音频 prompt 文件生成
音色哪吒由 14s 音频 prompt「天雷滚滚我好怕怕，劈的我浑身掉渣渣，逆天改命我吹喇叭，渡过天劫我笑哈哈，嘀嗒嘀嗒滴滴嗒」文件生成

哼唱音色说明

音色 Tingting 由 12s 音频 prompt 文件生成
音色哪吒由 14s 音频 prompt「小爷我生来就无畏，管他是老子还是谁，若师父拿出戒尺规，也休想把我来指挥」文件生成

在 Demo 页面选择「音乐合成」，输入文本、选择讲话人（默认 Tingting）、选择模式（RAP 或哼唱）。点击「生成 RAP / 哼唱」即可。

在这里插入图片描述

3. 语音克隆

该功能支持用户上传自定义音色音频，生成个性化语音。

在 Demo 页面选择「语音克隆」，输入文本、上传参考音频（.wav 格式）、为克隆声音命名、选择情感（可选高兴、生气、悲伤和撒娇）、选择语种/方言（可选中文、英文、日语、汉语、四川话、粤语和广东话）、选择语速（可选快速或慢速）。点击「生成克隆语音」即可。

在这里插入图片描述

人工智能深度学习自然语言处理数据库机器学习

阅读 964发布于 2 月 25 日

超神经HyperAI

1.4k 声望8.8k 粉丝

« 上一篇

无机材料逆合成效率飙升，韩国团队推出 Retrieval-Retro，成果入选 NeurIPS 2024

下一篇 »

在线教程丨石矶娘娘秒变「川渝妹子」？Step-Audio-TTS 实现语音克隆/音乐合成/语音合成三合一

引用和评论

推荐阅读

深度强化学习赋能城市消防优化，中国科学院团队提出 DRL 新方法破解设施配置难题

超神经HyperAI

一文掌握 MCP 上下文协议：从理论到实践

陈明勇赞 6阅读 1.9k

被 Manus 带火的 MCP 是什么｜一文看懂

Bytebase赞 3阅读 4k

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

思否编辑部赞 2阅读 5.2k

大模型时代，后端程序员如何避免被AI卷死？

王中阳讲编程赞 4阅读 2k

MCP 协议为何不如你想象的安全？从技术专家视角解读

Baihai_IDP赞 2阅读 472

做到真正0丢失、0重复：Apache SeaTunnel 实现万亿级数据一致性全解密

SeaTunnel赞 1阅读 827

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。