Facebook AI Research 开源 XLS-R 模型
Facebook AI Research (FAIR) 开源了 XLS-R,这是一个跨语言语音识别(SR)AI 模型。XLS-R 在 128 种语言的 436,000 小时语音音频数据上进行了训练,数据量比之前最大的模型多了一个数量级,并在多个下游语音识别和翻译任务中超越了当前的最先进技术。
模型背景与训练数据
XLS-R 基于 wav2vec 2.0,这是一种自监督学习方法,用于学习语音音频的表示。模型在多个公开的音频数据集上进行了训练,包括 VoxPopuli,这是一个包含欧洲议会录音的最新语料库。总共,模型在 128 种欧洲、亚洲和非洲语言上进行了训练,其中包括 88 种低资源语言,每种语言的音频数据少于 100 小时。
性能表现
XLS-R 在多个基准测试中取得了新的最先进性能,包括 VoxLingua107、CommonVoice、VoxPopuli 和 BABEL 的几种语言,以及在 CoVoST-2 上的英语翻译任务。FAIR 团队表示,这项研究将有助于开发能够更好理解所有人类语音的机器学习应用,并推动进一步研究,使语音技术在全球范围内更加普及,尤其是在服务不足的人群中。
模型架构
XLS-R 基于 wav2vec 2.0 架构,使用卷积神经网络(CNN)特征编码器将音频转换为潜在语音表示,然后量化并输入到 Transformer 中。在训练过程中,输入的某些部分被掩码,模型的目标是识别被掩码输入的量化表示。训练后的模型是音频输入的编码器;对于下游任务,编码器的输出可以发送到线性层进行语音分类和识别,或发送到解码器进行翻译。
性能比较
FAIR 团队在多个基准任务上比较了 XLS-R 与基线模型的性能,包括自动语音翻译(AST)、自动语音识别(ASR)、语言识别和说话人识别。在将其他语言翻译成英语的 AST 任务中,XLS-R 平均比之前的工作提高了 7.4 BLEU 分数。在将英语翻译成其他语言时,XLS-R 的表现与基线模型相似,作者推测这可能是因为英语数据在之前模型的训练语料库中占主导地位。在 BABEL 任务中,XLS-R 在即使没有添加任何预训练数据的语言上也超越了基线模型,展示了跨语言迁移的好处。总体而言,作者发现 XLS-R 在低资源和中资源语言上表现最佳。
安全性讨论
在 Twitter 上,有读者询问共同作者 Alexis Conneau 关于确保 XLS-R 在偏见方面的安全性的方法。Conneau 回答说,这取决于下游任务和所考虑的偏见。在预训练时,可以过滤未标记的数据;在微调时,有很多关于控制生成(ASR/AST)的工作,很难进行全面的总结。
开源资源
XLS-R 的代码已在 GitHub 上提供,预训练模型可从 HuggingFace 模型库中获取。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。