Rhymes AI 发布 Aria：开源多模态模型及开发资源

Aria：开源多模态原生MoE模型

Rhymes AI发布了Aria，这是一个开源的多模态原生混合专家（Mixture-of-Experts, MoE）模型，能够有效处理文本、图像、视频和代码。在基准测试中，Aria不仅超越了其他开源模型，还展示了与GPT-4o和Gemini-1.5等专有模型竞争的强大性能。此外，Rhymes AI还发布了包含模型权重、微调和开发指南的代码库。

主要特点

多模态原生理解：Aria能够同时处理多种数据类型，包括文本、图像、视频和代码。
高性能：在基准测试中，Aria在文档理解、场景文本识别、图表阅读和视频理解等复杂任务中表现出色，超越了Pixtral-12B和Llama3.2-11B等开源模型，并与GPT-4o和Gemini-1.5等专有模型竞争。
高效架构：Aria采用了细粒度的混合专家模型架构，每token激活3.9亿参数，提供了更高的参数利用率和处理效率。

架构与性能

Aria的架构从零开始构建，结合了多模态和语言数据，实现了在各种任务中的最先进结果。尽管模型总参数为25.3亿，但在推理过程中仅激活3.5亿参数，这使得Aria能够在消费级GPU（如NVIDIA RTX 4090）上高效运行，降低了硬件需求。

社区反馈与未来计划

机器学习工程师Rashid Iqbal对Aria的架构提出了几点考虑，包括在大规模参数下可能导致的延迟或效率问题，以及在真实场景中的表现是否与基准测试一致。Rhymes AI回应称，API支持已在未来模型的路线图中，并鼓励研究人员、开发者和组织参与探索和开发Aria的实际应用。

资源与支持

Rhymes AI发布了Aria的代码库，包含模型权重、技术报告以及使用和微调模型的指南。代码库还支持vLLM等框架，并提供了最佳实践，以简化不同应用的采用。所有资源均在Apache 2.0许可下免费提供。

总结

Aria的发布标志着多模态AI模型的一个重要进展，其开源性质和高效架构使其在学术界和工业界都具有广泛的应用潜力。Rhymes AI通过提供丰富的资源和社区支持，鼓励更多开发者参与Aria的进一步开发和优化。