EuroLLM-9B 旨在提升对欧洲语言的先进LLM支持

EuroLLM-9B 是一个在欧洲开发的开源大语言模型，专为欧洲语言量身定制，支持所有欧盟官方语言以及11种非官方但商业上重要的语言。该模型由 EuroLLM 团队开发，其性能使其成为同规模中最佳的欧洲制造大语言模型之一。

EuroLLM-9B 是 EuroLLM 计划中发布的第二个大语言模型，继较小的 EuroLLM-1.7B 之后推出。该模型的关键组件是其分词器，该分词器使用了一个包含128,000个欧洲语言词汇的词表，以增强对欧洲语言的处理能力。模型在巴塞罗那的 MareNostrum5 超级计算机提供的 GPU 基础设施上进行了预训练，使用了大约4万亿个令牌。

在训练后阶段，EuroLLM 团队使用了公开可用的数据集对模型进行微调，使其能够处理多轮对话并遵循指令执行任务。团队的目标之一是展示该模型适合针对特定用例进行微调的能力。据团队介绍，该模型在跨所有支持语言的文本翻译任务中表现出色，优于 Gemma-2-9B–IT 和 Aya-expanse-8B。

为了评估模型性能，团队在英语和欧盟语言上进行了基准测试。对于欧洲语言，EuroLLM-9B 表现优于其他欧洲模型（如 Mistral-7BV 和 Salamandra-7B）以及非欧洲模型（如 LLama-3.1-8B 和 Qwen-2-5-7B），与 Gemma-2-9B 表现相当。对于英语，EuroLLM-9B 表现良好，与 Mistral-7B 相当。

尽管 9B 规模的模型无法与 70B 模型匹敌，但其得分非常接近，特别是在使用 beam size 为 4 时。该模型已在 Hugging Face 上发布，用户可以通过提供的代码片段运行模型。

Reddit 用户指出，由于像 Llama 3.3 70B 这样的大型模型在处理较少流行语言时表现不理想，且微调成本高昂，因此针对欧洲语言的开源模型需求真实存在。EuroLLM 团队正在开发更大版本的模型，以增强其与大型模型的竞争力，但尚未明确发布时间。