Mistral AI发布三款开放权重语言模型

Mistral AI 发布三款开源语言模型

Mistral AI 发布了三款开源语言模型,均采用 Apache 2.0 许可协议。这三款模型分别是:

  1. Mistral NeMo:一款 120 亿参数的多用途大语言模型,支持 11 种语言,包括中文、日语、阿拉伯语和印地语。该模型具有 128k token 的上下文窗口,并提供了基础版和指令调优版。Mistral NeMo 使用了名为 Tekken 的新分词器,能够更高效地压缩源代码和自然语言。在 MMLU 和 Winogrande 等基准测试中,Mistral NeMo 表现优于同规模的模型,如 Gemma 2 9B 和 Llama 3 8B。
  2. Codestral Mamba:一款 70 亿参数的代码生成模型,基于 Mamba 架构。Mamba 架构相比常见的 Transformer 架构具有更快的推理速度和理论上无限的上下文长度。Mistral 声称该模型在性能上可与基于 Transformer 的更大模型如 CodeLlama 34B 相媲美。
  3. Mathstral:一款 70 亿参数的模型,专为数学和推理任务进行微调。该模型与致力于推动数学领域 AI 发展的非营利组织 Project Numina 合作开发。Mathstral 在 MMLU 和 MATH 等基准测试中表现出色,达到同规模模型中的最先进水平。

用户讨论与反馈

在 Hacker News 上,用户对 Mistral NeMo 和 Codestral Mamba 进行了讨论:

  • Mistral NeMo:用户普遍认为该模型在各方面都有显著改进,包括更大的上下文窗口和宽松的许可协议。然而,有用户指出,尽管模型采用 Apache 2.0 许可,但 Huggingface 平台要求用户登录并同意分享联系信息才能访问模型文件,这引发了争议。此外,Mistral NeMo 发布时尚未被 Ollama 框架支持,但 Ollama 开发团队在一周内迅速添加了对该模型的支持。
  • Codestral Mamba:用户讨论了该模型是否适合作为“离线”或本地托管的编码助手。有用户指出,Mamba 架构对推理速度的提升尚不明确,但在 CPU 上使用量化版本的 Mistral-7B 模型已经非常实用。然而,在专业环境中使用本地模型进行代码生成可能面临法律风险,因为没有提供商的基础设施来避免版权代码的重复使用。

模型获取与部署

这三款模型可通过以下途径获取和部署:

  • 下载:用户可以在 Huggingface 平台或通过 Mistral 的 mistral-inference SDK 下载模型。
  • API:Mistral NeMO 和 Codestral Mamba 可通过 Mistral AI 的 la Plateforme API 访问。
  • 其他平台:Mistral NeMO 还可通过 NVIDIA 的 NIM 推理微服务访问,而 Codestral Mamba 可以使用 TensorRT-LLM 进行部署。

总结

Mistral AI 发布的三款开源语言模型在各自领域表现出色,并提供了多种获取和部署方式。尽管在用户访问和框架支持方面存在一些争议,但这些模型在性能和功能上的优势使其成为人工智能领域的重要进展。

阅读 37
0 条评论