谷歌发布PaliGemma 2视觉语言模型系列

Google DeepMind 发布 PaliGemma 2 视觉语言模型

Google DeepMind 发布了 PaliGemma 2,这是一个视觉语言模型(VLM)家族。PaliGemma 2 提供三种不同大小和三种输入图像分辨率,并在多个视觉语言基准测试中实现了最先进的性能。

主要更新与模型架构

  • 模型升级:PaliGemma 2 是 2024 年发布的 PaliGemma 家族的更新版本。
  • 架构:它使用了与原始 PaliGemma 相同的 SigLIP-So400m 视觉编码器,但升级到了 Gemma 2 LLM
  • 模型规模:PaliGemma 2 家族包含九个不同模型,结合了 2B、9B 和 27B 参数的 LLM 大小以及 224、448 和 896 像素平方分辨率的视觉编码器。

性能表现

  • 基准测试:PaliGemma 2 在多个基准测试中设置了新的最先进记录,包括光学字符识别(OCR)、分子结构识别和放射学报告生成。
  • 微调版本:Google 还发布了基于 Descriptions of Connected and Contrasting Images (DOCCI) 数据集微调的变体,这些变体能够生成更长、更详细的图像描述,且“比其他 VLM 生成的句子更符合事实”。
  • 量化性能:团队还评估了在 CPU 上运行的量化版本模型的性能和推理速度,结果显示从全 32 位到混合精度量化的模型权重“没有实际的质量差异”。

社区与应用

  • 社区参与:Google 鼓励开发者加入 Gemma 社区,分享项目并共同探索 AI 的无限潜力。
  • 应用场景:尽管 PaliGemma 2 目前不支持多图像输入,但其在视觉 RAG(检索增强生成)等任务中仍有广泛应用潜力。

相关讨论

  • Hacker News 讨论:有用户指出 PaliGemma 2 在微调方面表现出色,但缺乏对多图像输入的支持。
  • X 平台讨论:Gemma 团队成员 Glenn Cameron 提到 PaliGemma 2 可以生成机器人命令,但不建议用于高风险任务。

资源与工具

相关背景

  • 机器人控制:InfoQ 此前报道了 Google 在机器人控制中使用 VLM 的工作,包括 Robotics Transformer 2 (RT-2) 和 PaLM-E,后者结合了 PaLM 和 Vision Transformer (ViT) 模型。
阅读 10
0 条评论