米斯特拉尔人工智能推出用于基于大语言模型的多模态文档光学字符识别的 API

发布于 2025-03-31

主要观点：Mistral OCR 现可在其 SaaS 平台使用，旨在为数字化复杂文档提供解决方案，适合多种文档类型，如科学研究、历史文档等。它利用 Mistral LLMs 理解 OCR 提取的内容，优于其他领先 OCR 解决方案，能以 unprecedented 的精度和认知理解文档各元素，可将图像和 PDF 作为输入并提取内容为有序交错的文本和图像，其 OCR API 能提取文档中的嵌入式图像并输出为 markdown 文件等格式，支持多语言，已为 Mistral 的聊天解决方案提供动力，不久将用于本地部署，单个节点每分钟可处理 2000 页，在 Python 中使用需安装mistralai包并按步骤上传和处理文件，目前 API 限制文件大小不超过 50MB 或长度不超过 1000 页，价格为 1000 页/美元或 2000 页/美元（使用批量 OCR）。
关键信息：

可在Mistral 的 la Plateforme SaaS使用。
适合多种文档类型。
利用 Mistral LLMs 理解内容。
优于其他 OCR 解决方案。
可提取嵌入式图像。
支持多语言。
已用于聊天解决方案，即将用于本地部署。
Python 使用方法及 API 限制和价格。
重要细节：
给出了示例代码用于在 Python 中使用 OCR API 上传和处理文件。
提到单个节点处理速度为每分钟 2000 页。
说明 API 对文件大小和长度的限制。
提及不同价格方案（1000 页/美元或 2000 页/美元使用批量 OCR）。

阅读 80