主要观点:介绍了 FastVLM 及其官方仓库,它是用于视觉语言模型的高效视觉编码,有不同规模的变体且在性能和延迟方面表现出色,提供了模型训练、推理相关的指导及多个模型的下载链接等。
关键信息:
- 引入 FastViTHD 新型混合视觉编码器,可减少高分辨率图像编码时间和输出令牌数。
- 最小变体性能超 LLaVA-OneVision-0.5B,TTFT 快 85 倍且视觉编码器小 3.4 倍。
- 较大变体用 Qwen2-7B LLM 超近期工作,单图像编码器 TTFT 快 7.9 倍。
- 提供 setup 步骤、模型动物园(不同规模模型及下载链接)、用法示例、在 Apple Silicon 和设备上的推理指导、引用方式及开源相关信息。
重要细节: - 使用 LLaVA 代码库训练 FastVLM 变体,训练或微调需遵循 LLaVA 代码库指导。
- 下载所有预训练检查点可运行
bash get_models.sh
命令。 - 在 Apple Silicon 上需将 PyTorch 检查点导出为适合的格式,提供了 3 个兼容格式的模型。
- 在 Apple 设备上推理可查看
app
子文件夹。 - 引用论文时需按照给定格式。
- 代码基于多个开源贡献,查看 LICENSE 和 LICENSE_MODEL。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。