目前支持中文的,最好的 text-to-speech 和 audio-to-text 模型是哪个?

目前支持中文的,最好的 text-to-speech 和 audio-to-text 模型是哪个?

就是把文字转成音频,和把音频转成文字的

要求开源免费,可以私有化部署的

阅读 6.4k
1 个回答

一、Text-to-Speech(文本转语音)
1.Tacotron 2:这是一个由谷歌开源的文本到语音模型:https://github.com/Rayhane-mamah/Tacotron-2

2.Mozilla TTS:这是一个由Mozilla开源的文本到语音模型,支持多种语言(包括中文):https://github.com/mozilla/TTS

二、Audio-to-Text(音频到文本):

1.DeepSpeech:这是一个由Mozilla开源的语音识别模型:https://github.com/mozilla/DeepSpeech

  1. Kaldi:Kaldi是一款流行的开源语音识别工具包:https://github.com/kaldi-asr/kaldi
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题