MiniMax
MiniMax 发布并开源了全新系列模型—— MiniMax-01。这个系列模型中包含两个模型,基础语言大模型 MiniMax-Text-01 和视觉多模态大模型 MiniMax-VL-01。
MiniMax-01
MiniMax-01
MiniMax-01系列模型首次大规模实现线性注意力机制,传统 Transformer 架构不再是唯一的选择。这个模型的参数量高达4560亿,其中单次激活459亿。模型综合性能比肩海外顶尖模型,同时能够高效处理全球最长400万 token 的上下文,是 GPT-4o 的32倍,Claude-3.5-Sonnet 的20倍。
参数对比
参数对比
基于业界主流的文本和多模态理解测评结果,MiniMax-01 在大多数任务上追平了海外公认最先进的两个模型,GPT-4o-1120 以及Claude-3.5-Sonnet-1022。在长文任务上,我们对比了之前长文最好的模型 Google 的 Gemini。而且输入长度越长,MiniMax-Text-01 性能衰减越慢,显著优于 Google Gemini。
在性能方面,MiniMax-Text-01 综合性能比肩海外顶尖模型。在长文任务上,对比 Google 的 Gemini,随着输入长度变长,它的性能衰减最慢,显著优于 Gemini。在多数学术集上,它取得了比肩海外第一梯队的结果,在长上下文的测评集上表现尤为突出。在 400 万的 Needle-In-A-Haystack 检索任务上,它的表现出色。
此外,MiniMax-Text-01 还具有较高的性价比。受益于架构创新、效率优化、集群训推一体的设计以及内部大量并发算力复用,其提供了业内较低价格区间的文本和多模态理解 API,标准定价是输入 Token 人民币 1 元 / 百万 Token,输出 Token 8 元 / 百万 Token。
有关慧星云
慧星云致力于为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用,就在慧星云。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。