Mistral AI发布Ministral 3B和Ministral 8B模型
Mistral AI最近发布了两个小型语言模型——Ministral 3B和Ministral 8B,统称为les Ministraux。这些模型专为本地推理应用设计,在一系列LLM基准测试中表现优于其他同类大小的模型。
模型特点
- 版本和上下文长度:两个模型都有基础版和指令版,上下文长度均为128k。
- 滑动窗口注意力机制:Ministral 8B采用了交错滑动窗口注意力机制,提供了更快、更高效的推理。
- 许可和用途:与Mistral AI的第一个模型Mistral 7B(Apache 2.0许可证)不同,les Ministraux模型需要商业许可证,但8B模型也可用于研究目的。模型还通过Mistral AI的API提供。
应用场景
Mistral AI表示,这些模型为本地、隐私优先的推理提供了计算高效和低延迟的解决方案,适用于设备翻译、无互联网智能助手、本地分析和自主机器人等关键应用。此外,它们还可以与Mistral Large等大型语言模型结合使用,作为多步骤代理工作流中的高效中间件,处理输入解析、任务路由和API调用。
模型性能
- 基准测试表现:les Ministraux模型在MMLU、Winogrande和GSM8k等基准测试中表现优异。Ministral 3B优于Llama 3.2 3B和Gemma 2 2B,Ministral 8B则优于Llama 3.1 8B和Mistral 7B。
- 独立评估:Artificial Analysis在HumanEval编码基准测试中对模型进行了评估,结果显示les Ministraux模型在推理速度上明显更快,整体表现优于Llama和Gemma。
用户讨论
在Hacker News的讨论中,一些用户对模型需要商业许可证表示遗憾,但指出模型可通过API使用,并且Mistral AI是欧洲唯一符合GDPR的LLM API提供商。Rev.AI的研发主管Lee Harris认为,Mistral AI需要提供更好的API来与Meta竞争,因为自托管用户会选择最佳模型,而在开源世界中无法通过他们获利。
模型下载
Ministral 8B Instruct的权重可以从Huggingface下载,供研究使用。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。