Meta AI 开源大规模多语言语音模型 MMS
Meta AI 开源了大规模多语言语音模型(MMS),该模型支持超过 1,100 种语言的自动语音识别(ASR)和文本到语音合成(TTS),以及超过 4,000 种语言的语言识别(LID)。MMS 的性能优于现有模型,并且覆盖的语言数量是现有模型的近 10 倍。
模型架构与训练数据
MMS 基于 wav2vec 模型,并在包含 1,406 种语言的 491,000 小时语音数据集上进行了预训练。该数据集结合了现有的跨语言数据集以及新收集的 3,860 种语言的 9,345 小时未标记录音,包括宗教文本朗读、歌曲和其他语音内容。为了微调 ASR 和 TTS 模型,Meta 使用了 1,107 种语言的圣经朗读录音,这些录音提供了跨语言的标注语音数据。经过微调的 MMS 模型能够在 1,107 种语言中执行 ASR 和 TTS,并在 4,017 种语言中执行 LID。
模型的意义
Meta 指出,世界上许多语言正面临消失的风险,而当前语音识别和语音生成技术的局限性可能会加速这一趋势。Meta 希望通过 MMS 模型,让技术能够鼓励人们保持他们的语言活力,因为人们可以通过使用他们偏好的语言来获取信息和使用技术。
模型训练的挑战
训练语音处理 AI 模型通常需要大量标注的语音数据,即音频录音及其转录文本。对于像英语这样的语言,这些数据集很容易获得,但对于母语者很少的低资源语言,收集大规模数据集几乎是不可能的。Meta 先前的研究表明,通过自监督预训练的跨语言模型,即使在小数据集上进行微调,也能在约 100 种语言上表现良好,包括低资源语言。
MMS 的扩展与创新
为了将模型扩展到处理数千种语言,Meta 需要包含更多语言的音频数据集。团队选择了基督教新约的音频录音,这些录音提供了超过 1,000 种语言的标注音频数据,每种语言平均有 32 小时的录音。尽管每种语言的录音通常由单一说话者(通常是男性)完成,但研究人员发现这对最终模型的影响很小:模型在男性和女性基准音频上的表现相似,且未发现因模型主要基于宗教文本训练而引入的偏见。
专家评价与用户反馈
Meta 的首席 AI 科学家 Yann LeCun 在 Twitter 上强调了 MMS 的多个亮点,特别是其词错误率仅为 Whisper 的一半。然而,用户指出 MMS 的实用性受到其非商业许可证的限制。另外,一些用户测试后发现,MMS 在转录为文本时表现不如 Whisper,存在误听单词和未识别隐含标点符号的问题,且运行速度较慢,内存占用较高。
开源与支持
MMS 的代码和预训练模型文件已在 GitHub 上发布,并且每种任务(ASR、TTS 和 LID)所支持的语言列表也可在线获取。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。