Mistral AI
在当今科技飞速发展的时代,人工智能领域不断涌现出新的成果,其中多模态模型更是备受关注。Mistral AI 发布的全新 Pixtral Large 开源模型为多模态数据处理带来了新的突破与可能。
Pixtral Large
Pixtral Large
Pixtral Large 是一个基于 Mistral Large 2 构建的多模态模型,隶属于 Mistral AI 多模态家族,是其重要成员之一。它拥有庞大的参数规模,总计达 1240 亿参数,这其中包含了一个 1230 亿参数的多模态解码器以及一个 10 亿参数的视觉编码器。
性能介绍
性能介绍
Pixtral Large 凭借其高达 1230 亿的参数量,它具备了强大的能力,能够精准地捕捉到各种复杂的模式和关系。无论是文本内容里的长距离依赖关系,还是图像当中的细微细节信息,它都能游刃有余地处理,从而高质量地完成诸如图像描述、视觉问答以及文档理解等多样化的任务。
Pixtral Large 的视觉编码器采用了先进的变换器架构以及自注意力机制,这使得它能够极为有效地处理不同分辨率和宽高比的图像。并且,在处理图像时,它并非局限于局部特征,而是能够充分考虑到全局上下文,为模型对图像的准确理解奠定了坚实基础。
此外,Pixtral Large 还拥有一个令人瞩目的特点,那就是具备 128K 的超大上下文窗口。这一特性使得它能够轻松处理多达 30 张高分辨率图像或约 300 页书籍的输入,其能力与 OpenAI 的 GPT 系列顶级模型不相上下。如此大的上下文窗口,能够确保模型在处理复杂且大量的任务时,依然可以保持信息的连贯性和完整性,让模型在面对长篇幅的文本和多图像组合等情况时,都能做出准确且合理的处理。
参数对比
参数对比
在与其他同类模型的数据对比中,Pixtral Large 展现出了卓越的性能。在评估视觉数据复杂数学推理能力的 MathVista 测试中,它一举获得了 69.4% 的准确率,这一成绩成功超越了目前市面上所有的同类模型,彰显出其在数学推理方面的强大实力。
同样,在评估复杂图表和文档推理能力的 ChartQA 和 DocVQA 测试中,Pixtral Large 也表现出色,它的成绩超过了 GPT-4o 和 Gemini-1.5 Pro,证明了它在处理图表和文档相关推理任务时的高效与精准。
还有在反映多模态大语言模型实际使用场景的 MM-MT-Bench 测试中,Pixtral Large 更是凭借自身优异的表现脱颖而出。它在该测试中的得分优于 Claude-3.5 Sonnet(新版)、Gemini-1.5 Pro 和 GPT-4o(最新版),进一步凸显了其在多模态综合应用场景下的卓越性能。
有关厚德云
厚德云致力于为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用,就在厚德云。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。