Mistral AI发布两款小型语言模型Les Ministraux

Mistral AI发布Ministral 3B和Ministral 8B模型

Mistral AI最近发布了两个小型语言模型——Ministral 3B和Ministral 8B,统称为les Ministraux。这些模型专为本地推理应用设计,在一系列LLM基准测试中表现优于其他同类大小的模型。

模型特点

  1. 版本和上下文长度:两个模型都有基础版和指令版,上下文长度均为128k。
  2. 滑动窗口注意力机制:Ministral 8B采用了交错滑动窗口注意力机制,提供了更快、更高效的推理。
  3. 许可和用途:与Mistral AI的第一个模型Mistral 7B(Apache 2.0许可证)不同,les Ministraux模型需要商业许可证,但8B模型也可用于研究目的。模型还通过Mistral AI的API提供。

应用场景

Mistral AI表示,这些模型为本地、隐私优先的推理提供了计算高效和低延迟的解决方案,适用于设备翻译、无互联网智能助手、本地分析和自主机器人等关键应用。此外,它们还可以与Mistral Large等大型语言模型结合使用,作为多步骤代理工作流中的高效中间件,处理输入解析、任务路由和API调用。

模型性能

  1. 基准测试表现:les Ministraux模型在MMLU、Winogrande和GSM8k等基准测试中表现优异。Ministral 3B优于Llama 3.2 3B和Gemma 2 2B,Ministral 8B则优于Llama 3.1 8B和Mistral 7B。
  2. 独立评估:Artificial Analysis在HumanEval编码基准测试中对模型进行了评估,结果显示les Ministraux模型在推理速度上明显更快,整体表现优于Llama和Gemma。

用户讨论

在Hacker News的讨论中,一些用户对模型需要商业许可证表示遗憾,但指出模型可通过API使用,并且Mistral AI是欧洲唯一符合GDPR的LLM API提供商。Rev.AI的研发主管Lee Harris认为,Mistral AI需要提供更好的API来与Meta竞争,因为自托管用户会选择最佳模型,而在开源世界中无法通过他们获利。

模型下载

Ministral 8B Instruct的权重可以从Huggingface下载,供研究使用。

阅读 39
0 条评论