Mistral Voxtral 是 OpenAI Whisper 和其他自动语音识别工具的开源权重竞争对手

发布于 2025-07-23

主要观点：Mistral 发布了旨在语音识别应用的 Voxtral 大语言模型，发布了两种变体 Voxtral Mini (3B)和 Voxtral Small (24B)的权重并采用 Apache 2.0 许可证，该模型旨在整合更先进的基于 LLM 的能力并超越简单转录，能在本地部署或通过 API 访问，有 32K 令牌上下文可处理长音频，基于 LLM 可进行问答和总结等任务，在转录和音频理解方面表现出色，优于其他解决方案，还为企业客户提供额外支持。
关键信息：

发布模型：Voxtral 及两种变体，权重开源。
部署方式：可本地部署或通过 API 访问，有优化转录的自定义版本。
上下文长度：32K 令牌，可处理长音频。
任务能力：可进行问答、总结，执行后端功能等。
语言优势：多语言，自动语言检测，支持欧洲语言。
性能对比：在转录和翻译等任务上优于其他解决方案。
企业支持：为企业提供私有部署、特定领域微调等功能。
重要细节：
Voxtral 旨在填补经典 ASR 系统和先进 LLM 模型之间的差距。
不同模型如 NVIDIA NeMo Canary-Qwen-2.5B 和 IBM 的 Granite Speech 有不同模式。
Mistral 自己的基准测试显示 Voxtral Small 在某些任务上与 GPT-4o-mini 和 Gemini 2.5 Flash 竞争且在语音翻译上表现更好。
Voxtral 保留了基础模型的纯文本能力可作为纯文本 LLM 使用。

阅读 113