GitHub - apple/ml-fastvlm:此存储库包含“FastVLM:用于视觉语言模型的高效视觉编码” - CVPR 2025 的官方实现

主要观点:介绍了 FastVLM 及其官方仓库,它是用于视觉语言模型的高效视觉编码,有不同规模的变体且在性能和延迟方面表现出色,提供了模型训练、推理相关的指导及多个模型的下载链接等。
关键信息

  • 引入 FastViTHD 新型混合视觉编码器,可减少高分辨率图像编码时间和输出令牌数。
  • 最小变体性能超 LLaVA-OneVision-0.5B,TTFT 快 85 倍且视觉编码器小 3.4 倍。
  • 较大变体用 Qwen2-7B LLM 超近期工作,单图像编码器 TTFT 快 7.9 倍。
  • 提供 setup 步骤、模型动物园(不同规模模型及下载链接)、用法示例、在 Apple Silicon 和设备上的推理指导、引用方式及开源相关信息。
    重要细节
  • 使用 LLaVA 代码库训练 FastVLM 变体,训练或微调需遵循 LLaVA 代码库指导。
  • 下载所有预训练检查点可运行bash get_models.sh命令。
  • 在 Apple Silicon 上需将 PyTorch 检查点导出为适合的格式,提供了 3 个兼容格式的模型。
  • 在 Apple 设备上推理可查看app子文件夹。
  • 引用论文时需按照给定格式。
  • 代码基于多个开源贡献,查看 LICENSE 和 LICENSE_MODEL。
阅读 100
0 条评论