有什么好用的tts文字转语音的开源模型?

有什么好用的tts文字转语音的开源模型?要求如下:

  • 支持中文
  • 开源免费
  • 可以离线部署,不需要联网
  • 人声多样,不单一
  • 可以做到声情并茂,语气自然
阅读 4.1k
3 个回答

https://styletts2.github.io
StyleTTS2:近乎人类水平的文本转语音库

它利用风格扩散和对抗训练与大型语音语言模型 (SLM) 来实现人类水平的 TTS 合成。(star 2.7K)

还有更多,可以参考:https://mp.weixin.qq.com/s/OyxSSUPzGZWBLgCfQAI2wg

但是这个 styletts2 还不支持中文 https://github.com/yl4579/StyleTTS2/issues/70

下面还有其他的


https://www.datalearner.com/blog/1051701014024122

Coqui开源的语音合成大模型XTTS V2

语音合成是大模型领域另一个发展十分迅猛但是技术发展相对语言模型较慢的领域。Coqui此次开源的XTTS V2也是一个非常神秘的语音合成模型。

根据官方的介绍,这个模型支持17中语言,可以基于6秒的语音就能克隆模仿声音。甚至包括克隆来源声音的风格和情绪。然而,可惜的是XTTS V2并没有公布训练细节,而这个模型也不允许商用,你可以用来作为研究目的,而商用只允许用来测试。

该模型支持的语言列表:

语言名称缩写语言的中文
Englishen英语
Spanishes西班牙语
Frenchfr法语
Germande德语
Italianit意大利语
Portuguesept葡萄牙语
Polishpl波兰语
Turkishtr土耳其语
Russianru俄语
Dutchnl荷兰语
Czechcs捷克语
Arabicar阿拉伯语
Chinesezh-cn中文
Japaneseja日语
Hungarianhu匈牙利语
Koreanko韩语
Hindihi印地语

官方有个在线演示,效果还是很可以的:https://huggingface.co/spaces/coqui/xtts

不过不支持商用的原因可能是他们在推自己的云服务,大家也可以商业采购~


还有一个不开源,但是有很多免费额度的:https://ttsmaker.com/zh-cn


又发现一个新的 https://github.com/netease-youdao/EmotiVoice


又发现一个新的 https://github.com/fishaudio/fish-speech


又发现一个新的 https://github.com/AIGC-Audio/AudioGPT


又发现一个新的 https://github.com/myshell-ai/OpenVoice


又发现一个新的 https://github.com/coqui-ai/TTS


又发现一个新的 https://github.com/suno-ai/bark


还有一个免费且不支持中文且不开源的:


还有一个不开源的:

Tacotron 2:开源免费,人声多样的话: 可以用训练不同的数据集来实现,声情并茂: 用 WaveGlow 或者 Griffin-Lim 算法可以实现自然的语音合成
Mozilla TTS:开源免费,人声多样的话: 支持多种预训练的声音模型,声情并茂的话: 可以用不同的声码器可以实现
ESPnet:开源免费,人声多样的话: 支持多种预训练的声音模型,声情并茂的话: 可以用用不同的声码器可以实现

Tacotron
WaveNet
FastSpeech
这些模型都是开源的,并且在GitHub上有相关的代码和实现。你可以根据自己的需求和技术背景选择适合的模型,并进行相应的调整和训练,以满足特定的文字转语音需求。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题