EuroLLM-9B 是一个在欧洲开发的开源大语言模型,专为欧洲语言量身定制,支持所有欧盟官方语言以及11种非官方但商业上重要的语言。该模型由 EuroLLM 团队开发,其性能使其成为同规模中最佳的欧洲制造大语言模型之一。
EuroLLM-9B 是 EuroLLM 计划中发布的第二个大语言模型,继较小的 EuroLLM-1.7B 之后推出。该模型的关键组件是其分词器,该分词器使用了一个包含128,000个欧洲语言词汇的词表,以增强对欧洲语言的处理能力。模型在巴塞罗那的 MareNostrum5 超级计算机提供的 GPU 基础设施上进行了预训练,使用了大约4万亿个令牌。
在训练后阶段,EuroLLM 团队使用了公开可用的数据集对模型进行微调,使其能够处理多轮对话并遵循指令执行任务。团队的目标之一是展示该模型适合针对特定用例进行微调的能力。据团队介绍,该模型在跨所有支持语言的文本翻译任务中表现出色,优于 Gemma-2-9B–IT 和 Aya-expanse-8B。
为了评估模型性能,团队在英语和欧盟语言上进行了基准测试。对于欧洲语言,EuroLLM-9B 表现优于其他欧洲模型(如 Mistral-7BV 和 Salamandra-7B)以及非欧洲模型(如 LLama-3.1-8B 和 Qwen-2-5-7B),与 Gemma-2-9B 表现相当。对于英语,EuroLLM-9B 表现良好,与 Mistral-7B 相当。
尽管 9B 规模的模型无法与 70B 模型匹敌,但其得分非常接近,特别是在使用 beam size 为 4 时。该模型已在 Hugging Face 上发布,用户可以通过提供的代码片段运行模型。
Reddit 用户指出,由于像 Llama 3.3 70B 这样的大型模型在处理较少流行语言时表现不理想,且微调成本高昂,因此针对欧洲语言的开源模型需求真实存在。EuroLLM 团队正在开发更大版本的模型,以增强其与大型模型的竞争力,但尚未明确发布时间。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。