头图

近期,上海交通大学、剑桥大学和吉利汽车研究院(宁波)有限公司共同开源了一款高性能文本到语音 (TTS) 系统 F5-TTS ,该系统参考了 E2-TTS 的运行方法,并基于流匹配的非自回归生成方法,结合了扩散变换器 (DiT) 技术使得该模型在合成质量和推理速度上有了明显的提升!

E2-TTS:一款由微软发布的文本转语音系统,通过使用填充标记将文本输入扩展至与目标语音相同的长度,随后进行去噪处理,即可直接生成语音。

目前「F5-E2 TTS 只需 3 秒克降任何音色」教程已上线至 OpenBayes 公共教程中,可以同时体验 F5-TTS 和 E2-TTS 2 个模型,无需输入任何命令,不仅可以轻松克隆音色,还可以准确克隆情绪,甚至模拟双人对话。

教程地址

https://go.openbayes.com/F0ZMg

Demo 运行

01 Demo 运行阶段

  1. 登录 http://OpenBayes.com,在「公共教程」页面,选择「F5-E2 TTS 只需 3 秒克隆任何音色」教程。

  1. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

  1. 点击右下角「下一步:选择算力」。

  1. 页面跳转后,选择「NVIDIA RTX 4090」以及「PyTorch」镜像,OpenBayes 平台上线了新的计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「下一步:审核」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

小贝总专属邀请链接(直接复制到浏览器打开):

https://go.openbayes.com/9S6Dr

  1. 确认无误后,点击「继续执行」,等待分配资源,首次克隆需等待 1 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。

02 效果演示
该教程包含了 2 个模型的 Demo 使用,分别为 F5-TTS 和 E2 TTS。这 2 个模型都可以完成单人语音生成 (Batched TTS)、多人语音生成 (Podcast Generation)、多种语音类型生成 (Multiple Speech-Type Generation) 这 3 个功能。

1. 单人语音生成 (Batched TTS)

选择「TTS」,在「Reference Audio」处上传需要克隆的音频(例如:甄嬛的音频),在「Text to Generate」中输入文本提示词(六星街里还传来巴扬琴声吗,阿力克桑德的面包房列巴出炉了吗)。点击「Synthesize」提交。

下方参数分别表示:

Reference Text:参考文本,留空以自动转录参考音频。如果您输入文本,它将覆盖自动转录。

Remove Silences:移除静音,该模型往往会产生静音,尤其是在较长的音频上。如果需要,我们可以手动删除静音。请注意,这是一个实验性功能,可能会产生奇怪的结果并且增加生成时间。

Custom Split Words:断句符号,输入要分割的自定义单词,以逗号分隔。留空以使用默认列表。

Speed:速度,控制生成的语速。

2. 多人语音生成 (Podcast Generation)

该功能可以通过克隆音频,实现双人对话。选择「Podcast Generation」,在「Speaker 1 Name」和「Speaker 2 Name」分别输入不同名称,在「Reference Text (Speaker 1)」和 「Reference Text (Speaker 2)」上传 2 个参考音频。

上传后,在「Podcast Script」中按照格式输入对话文本,然后选择模型 F5-TTS 或 E2-TTS。最后点击「Generate Podcast」生成。

文本参考:

hua:这豆角老吗?

huan:是谁说这豆老了,这豆可太棒了

3. 多种语音类型生成 (Multiple Speech-Type Generation)

这个功能可以实现情绪模拟,根据不同的情绪进行音频生成。选择「Multiple Speech-Type Generation」后,点击「Add Speech Type」添加不同语气类型和音频(例如 Regular 和 Angry)。

在「Text to Generate」中按照要求的格式输入生成文本,然后选择模型 F5-TTS 或 E2-TTS。最后点击「Generate Emotional Speech」生成。

生成文本参考:

Angry: I was talking to my friend, she's very excited about her trip to Europe, and I'm just jealous.

新用户福利

注册福利: 点击下方邀请链接注册,即可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费算力时长,永久有效!

小贝总专属邀请链接(直接复制到浏览器打开):

https://go.openbayes.com/9S6Dr


OpenBayes
6 声望1 粉丝

贝式计算是中国领先的高性能计算服务提供商,通过为新一代异构芯片嫁接经典软件生态及机器学习模型,向工业企业及高效科研院所提供更加快速、易用的数据科学计算产品。