Mistral AI发布两款小型语言模型Les Ministraux

Mistral AI发布Ministral 3B和Ministral 8B模型

Mistral AI最近发布了两个小型语言模型——Ministral 3B和Ministral 8B，统称为les Ministraux。这些模型专为本地推理应用设计，在一系列LLM基准测试中表现优于其他同类大小的模型。

模型特点

版本和上下文长度：两个模型都有基础版和指令版，上下文长度均为128k。
滑动窗口注意力机制：Ministral 8B采用了交错滑动窗口注意力机制，提供了更快、更高效的推理。
许可和用途：与Mistral AI的第一个模型Mistral 7B（Apache 2.0许可证）不同，les Ministraux模型需要商业许可证，但8B模型也可用于研究目的。模型还通过Mistral AI的API提供。

应用场景

Mistral AI表示，这些模型为本地、隐私优先的推理提供了计算高效和低延迟的解决方案，适用于设备翻译、无互联网智能助手、本地分析和自主机器人等关键应用。此外，它们还可以与Mistral Large等大型语言模型结合使用，作为多步骤代理工作流中的高效中间件，处理输入解析、任务路由和API调用。

模型性能

基准测试表现：les Ministraux模型在MMLU、Winogrande和GSM8k等基准测试中表现优异。Ministral 3B优于Llama 3.2 3B和Gemma 2 2B，Ministral 8B则优于Llama 3.1 8B和Mistral 7B。
独立评估：Artificial Analysis在HumanEval编码基准测试中对模型进行了评估，结果显示les Ministraux模型在推理速度上明显更快，整体表现优于Llama和Gemma。

用户讨论

在Hacker News的讨论中，一些用户对模型需要商业许可证表示遗憾，但指出模型可通过API使用，并且Mistral AI是欧洲唯一符合GDPR的LLM API提供商。Rev.AI的研发主管Lee Harris认为，Mistral AI需要提供更好的API来与Meta竞争，因为自托管用户会选择最佳模型，而在开源世界中无法通过他们获利。

模型下载

Ministral 8B Instruct的权重可以从Huggingface下载，供研究使用。