有什么好用的tts文字转语音的开源模型?要求如下:
- 支持中文
- 开源免费
- 可以离线部署,不需要联网
- 人声多样,不单一
- 可以做到声情并茂,语气自然
Tacotron 2:开源免费,人声多样的话: 可以用训练不同的数据集来实现,声情并茂: 用 WaveGlow 或者 Griffin-Lim 算法可以实现自然的语音合成
Mozilla TTS:开源免费,人声多样的话: 支持多种预训练的声音模型,声情并茂的话: 可以用不同的声码器可以实现
ESPnet:开源免费,人声多样的话: 支持多种预训练的声音模型,声情并茂的话: 可以用用不同的声码器可以实现
Tacotron
WaveNet
FastSpeech
这些模型都是开源的,并且在GitHub上有相关的代码和实现。你可以根据自己的需求和技术背景选择适合的模型,并进行相应的调整和训练,以满足特定的文字转语音需求。
3 回答3.4k 阅读✓ 已解决
1 回答4.4k 阅读
1 回答2.7k 阅读
2 回答1.3k 阅读
2.7k 阅读
1 回答1.7k 阅读
1.7k 阅读
https://styletts2.github.io
StyleTTS2:近乎人类水平的文本转语音库
它利用风格扩散和对抗训练与大型语音语言模型 (SLM) 来实现人类水平的 TTS 合成。(star 2.7K)
还有更多,可以参考:https://mp.weixin.qq.com/s/OyxSSUPzGZWBLgCfQAI2wg
但是这个 styletts2 还不支持中文 https://github.com/yl4579/StyleTTS2/issues/70
下面还有其他的
https://www.datalearner.com/blog/1051701014024122
Coqui开源的语音合成大模型XTTS V2
语音合成是大模型领域另一个发展十分迅猛但是技术发展相对语言模型较慢的领域。Coqui此次开源的XTTS V2也是一个非常神秘的语音合成模型。
根据官方的介绍,这个模型支持17中语言,可以基于6秒的语音就能克隆模仿声音。甚至包括克隆来源声音的风格和情绪。然而,可惜的是XTTS V2并没有公布训练细节,而这个模型也不允许商用,你可以用来作为研究目的,而商用只允许用来测试。
该模型支持的语言列表:
官方有个在线演示,效果还是很可以的:https://huggingface.co/spaces/coqui/xtts
不过不支持商用的原因可能是他们在推自己的云服务,大家也可以商业采购~
还有一个不开源,但是有很多免费额度的:https://ttsmaker.com/zh-cn
又发现一个新的 https://github.com/netease-youdao/EmotiVoice
又发现一个新的 https://github.com/fishaudio/fish-speech
又发现一个新的 https://github.com/AIGC-Audio/AudioGPT
又发现一个新的 https://github.com/myshell-ai/OpenVoice
又发现一个新的 https://github.com/coqui-ai/TTS
又发现一个新的 https://github.com/suno-ai/bark
还有一个免费且不支持中文且不开源的:
还有一个不开源的: