Hugging Face 推出了 mmBERT，这是一种用于 1800 多种语言的多语言编码器。

发布于 9 月 29 日

主要观点：Hugging Face 发布了 mmBERT，这是一种新的多语言编码器，基于 ModernBERT 架构，在 1833 种语言的 3 万亿多个令牌上训练。它采用渐进式训练计划，先从 60 种高资源语言开始，逐步扩展到 110 种，最后包含所有 1833 种语言，通过这种方式在不超调的情况下实现了良好的覆盖。社区成员对低资源语言在 1833 种语言阶段的表现表示关注，开发人员通过在最后 100B 令牌阶段引入的低资源语言如法罗语和提格雷尼亚语的评估进行了回应。mmBERT 继承 ModernBERT 的架构优势，如快速、内存高效的骨干和 8192 令牌上下文处理能力，虽基础模型参数仅 1.1 亿，但性能可与大型多语言模型媲美，还有 1.4 亿参数的变体。其使用模型合并，结合三种变体以保持跨领域性能，在评估中 consistently 优于早期多语言编码器，在多种任务和基准测试中表现出色，证明了扩展多语言编码器不必以效率为代价。
关键信息：

发布新多语言编码器 mmBERT 及相关信息。
采用渐进式训练计划及具体步骤。
社区对低资源语言的关注及回应。
mmBERT 的架构优势及参数情况。
使用模型合并及效果。
在各种评估任务中的表现。
重要细节：
在 [GLUE] 上匹配英语基线，[XTREME] 中跨语言任务有明显增益，在 [MTEB] v2 多语言基准测试中创新高等具体评估数据。
模型从 60 种高资源语言开始逐步扩展到 1833 种的过程细节。
关于低资源语言评估的具体语言如法罗语和提格雷尼亚语的情况。

阅读 59