Nexa AI 推出 Omnivision:专为边缘设备设计的紧凑型视觉语言模型
Nexa AI 近日发布了 Omnivision,这是一款专为边缘设备设计的紧凑型视觉语言模型。通过将图像 token 从 729 个大幅减少到 81 个,Omnivision 显著降低了延迟和计算需求,同时在视觉问答和图像描述等任务中保持了强大的性能。该模型的架构集成了 Qwen-2.5-0.5B 语言主干、SigLIP-400M 视觉编码器以及优化的投影层,以确保多模态输入的无缝处理。
模型架构与核心组件
Omnivision 的架构旨在实现高效的多模态处理,包含三个核心组件:
- Qwen-2.5-0.5B:作为处理文本输入的主干模型。
- SigLIP-400M 视觉编码器:从输入图像生成图像嵌入,分辨率为 384,采用 14×14 的 patch 大小,优化视觉数据提取。
- 投影层:使用多层感知机(MLP)将图像嵌入与语言模型的 token 空间对齐,实现视觉与语言的流畅集成。
关键创新与性能
Omnivision 的一项关键创新是将图像 token 减少了 9 倍,从而在不影响准确性的情况下降低了处理需求。例如,在 MacBook M4 Pro 上,Omnivision 可以在不到两秒的时间内为高分辨率图像生成描述,且所需内存不到 1 GB。为确保准确性和可靠性,模型采用了 Direct Preference Optimization (DPO),利用高质量数据集减少幻觉并增强预测的可信度。
训练流程
Omnivision 的训练流程分为三个阶段:
- 预训练阶段:专注于对齐视觉和文本输入,建立基础能力。
- 监督微调阶段:增强模型对上下文的理解能力,生成相关响应。
- DPO 优化阶段:通过减少不准确性,优化特定上下文中的决策精度。
性能表现
在 ScienceQA、MM-VET 和 POPE 等基准测试中,Omnivision 的表现优于其前身 nanoLLAVA。具体来说,它在 ScienceQA 测试数据上的准确率达到 71.0%,在 POPE 基准测试中达到 93.3% 的准确率,展示了其在复杂推理任务中的可靠性。
未来扩展计划
目前,Omnivision 主要用于视觉问答和图像描述任务。然而,Nexa AI 透露计划扩展模型的功能,以支持光学字符识别(OCR)。在最近的 Reddit 讨论中,AzLy 表示:
目前,OCR 不是该模型的预期用途,它主要用于视觉问答和图像描述。但支持更好的 OCR 是我们的下一步计划。
部署与反馈
Omnivision 可以通过 Nexa-SDK 在本地部署,这是一个支持多种多模态任务的开源框架。该模型仍处于早期开发阶段,团队正在积极收集用户反馈以指导未来的改进。
总结
Omnivision 是一款专为边缘设备优化的紧凑型视觉语言模型,通过减少图像 token 和优化架构,显著降低了计算需求和延迟,同时保持了高性能。其创新的训练流程和未来的扩展计划使其在多模态任务中具有广泛的应用潜力。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。