Meta AI 开源 NLLB-200 多语言翻译模型
Meta AI 最近开源了 NLLB-200,这是一个能够在 200 多种语言之间进行翻译的 AI 模型。NLLB-200 是一个包含 545 亿参数的混合专家模型(Mixture of Experts, MoE),其训练数据集包含超过 180 亿个句子对。在基准测试中,NLLB-200 的性能优于其他最先进的模型,提升幅度高达 44%。
No Language Left Behind 项目
NLLB-200 是 Meta No Language Left Behind (NLLB) 项目的一部分。该项目旨在为低资源语言(即公开可用的翻译句子少于 100 万的语言)提供机器翻译(MT)支持。为了开发 NLLB-200,研究人员通过雇佣专业翻译人员以及从网络挖掘数据,收集了多个多语言训练数据集。团队还创建并开源了一个扩展的基准数据集 FLORES-200,该数据集可以评估超过 4 万种翻译方向的 MT 模型。
关键数据集与技术细节
- FLORES-200 基准:该基准包含从英文维基百科中抽取的 3000 个句子的翻译,涵盖了 200 种语言。每个新语言的翻译均由专业翻译人员完成,并由另一组独立翻译人员审核。
- NLLB-MD 数据集:用于评估模型的泛化能力,包含来自四个非维基百科来源的 3000 个句子,并专业翻译为六种低资源语言。
- NLLB-Seed 数据集:包含来自维基百科的 6000 个句子,专业翻译为 39 种低资源语言,用于“引导”模型训练。
- 数据挖掘管道:研究人员构建了一个数据挖掘管道,生成了一个包含 148 种语言的超过 10 亿句子对的多语言训练数据集。
模型架构与性能
NLLB-200 基于 Transformer 编码器-解码器架构,但每第 4 个 Transformer 块的前馈层被替换为稀疏门控的混合专家层。在 FLORES-101 基准测试中,NLLB-200 的平均 BLEU 分数比其他模型高出 7.3 分,性能提升了 44%。
低资源语言的挑战
在 Reddit 的“Ask Me Anything”环节中,研究科学家 Philipp Koehn 提到,低资源语言的主要挑战在于缺乏已有的翻译文本,甚至是任何文本。不同文字的转换也是一个问题,尤其是翻译人名时。此外,某些语言在表达时信息较少(如时态或性别),因此翻译这些语言需要更广泛的上下文推理。
开源与未来展望
NLLB-200 模型和训练代码 以及 FLORES-200 基准 已在 GitHub 上开源。Meta AI 表示,翻译是 AI 中最激动人心的领域之一,NLLB 不仅帮助人们更好地访问网络内容,还使得跨语言的信息共享和贡献变得更加容易。尽管还有更多工作要做,但团队对最近的进展感到振奋。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。