有什么好用的tts文字转语音的开源模型？要求如下：支持中文开源免费可以离线部署，不需要联网人声多样，不单一可以做到声情并茂，语气自然

https://styletts2.github.io StyleTTS2：近乎人类水平的文本转语音库它利用风格扩散和对抗训练与大型语音语言模型（SLM）来实现人类水平的 TTS 合成。（star 2.7K）还有更多，可以参考： https://mp.weixin.qq.com/s/OyxSSUPzGZWBLgCfQAI2wg 但是这个 styletts2 还不支持中文 https://github.com/yl4579/StyleTTS2/issues/70 下面还有其他的 https://www.datalearner.com/blog/1051701014024122 Coqui开源的语音合成大模型XTTS V2 语音合成是大模型领域另一个发展十分迅猛但是技术发展相对语言模型较慢的领域。Coqui此次开源的XTTS V2也是一个非常神秘的语音合成模型。根据官方的介绍，这个模型支持17中语言，可以基于6秒的语音就能克隆模仿声音。甚至包括克隆来源声音的风格和情绪。然而，可惜的是XTTS V2并没有公布训练细节，而这个模型也不允许商用，你可以用来作为研究目的，而商用只允许用来测试。该模型支持的语言列表：语言名称缩写语言的中文 English en 英语 Spanish es 西班牙语 French fr 法语 German de 德语 Italian it 意大利语 Portuguese pt 葡萄牙语 Polish pl 波兰语 Turkish tr 土耳其语 Russian ru 俄语 Dutch nl 荷兰语 Czech cs 捷克语 Arabic ar 阿拉伯语 Chinese zh-cn 中文 Japanese ja 日语 Hungarian hu 匈牙利语 Korean ko 韩语 Hindi hi 印地语官方有个在线演示，效果还是很可以的： https://huggingface.co/spaces/coqui/xtts 不过不支持商用的原因可能是他们在推自己的云服务，大家也可以商业采购~ 还有一个不开源，但是有很多免费额度的： https://ttsmaker.com/zh-cn 又发现一个新的 https://github.com/netease-youdao/EmotiVoice 又发现一个新的 https://github.com/fishaudio/fish-speech 又发现一个新的 https://github.com/AIGC-Audio/AudioGPT 又发现一个新的 https://github.com/myshell-ai/OpenVoice 又发现一个新的 https://github.com/coqui-ai/TTS 又发现一个新的 https://github.com/suno-ai/bark 还有一个免费且不支持中文且不开源的： https://mp.weixin.qq.com/s/HUU6BycWUQ_NSPHJEFwhMg https://audiobox.metademolab.com/capabilities 还有一个不开源的： https://elevenlabs.io/

Tacotron 2 ：开源免费，人声多样的话: 可以用训练不同的数据集来实现，声情并茂: 用 WaveGlow 或者 Griffin-Lim 算法可以实现自然的语音合成 Mozilla TTS ：开源免费，人声多样的话: 支持多种预训练的声音模型，声情并茂的话: 可以用不同的声码器可以实现 ESPnet :开源免费，人声多样的话: 支持多种预训练的声音模型，声情并茂的话: 可以用用不同的声码器可以实现

Tacotron WaveNet FastSpeech 这些模型都是开源的，并且在GitHub上有相关的代码和实现。你可以根据自己的需求和技术背景选择适合的模型，并进行相应的调整和训练，以满足特定的文字转语音需求。

有什么好用的tts文字转语音的开源模型？

有什么好用的tts文字转语音的开源模型？要求如下：

支持中文
开源免费
可以离线部署，不需要联网
人声多样，不单一
可以做到声情并茂，语气自然

阅读 4.5k

https://styletts2.github.io
StyleTTS2：近乎人类水平的文本转语音库

它利用风格扩散和对抗训练与大型语音语言模型（SLM）来实现人类水平的 TTS 合成。（star 2.7K）

还有更多，可以参考：https://mp.weixin.qq.com/s/OyxSSUPzGZWBLgCfQAI2wg

但是这个 styletts2 还不支持中文 https://github.com/yl4579/StyleTTS2/issues/70

下面还有其他的

https://www.datalearner.com/blog/1051701014024122

Coqui开源的语音合成大模型XTTS V2

语音合成是大模型领域另一个发展十分迅猛但是技术发展相对语言模型较慢的领域。Coqui此次开源的XTTS V2也是一个非常神秘的语音合成模型。

根据官方的介绍，这个模型支持17中语言，可以基于6秒的语音就能克隆模仿声音。甚至包括克隆来源声音的风格和情绪。然而，可惜的是XTTS V2并没有公布训练细节，而这个模型也不允许商用，你可以用来作为研究目的，而商用只允许用来测试。

该模型支持的语言列表：

语言名称	缩写	语言的中文
English	en	英语
Spanish	es	西班牙语
French	fr	法语
German	de	德语
Italian	it	意大利语
Portuguese	pt	葡萄牙语
Polish	pl	波兰语
Turkish	tr	土耳其语
Russian	ru	俄语
Dutch	nl	荷兰语
Czech	cs	捷克语
Arabic	ar	阿拉伯语
Chinese	zh-cn	中文
Japanese	ja	日语
Hungarian	hu	匈牙利语
Korean	ko	韩语
Hindi	hi	印地语