Google DeepMind 发布 PaliGemma 2 视觉语言模型
Google DeepMind 发布了 PaliGemma 2,这是一个视觉语言模型(VLM)家族。PaliGemma 2 提供三种不同大小和三种输入图像分辨率,并在多个视觉语言基准测试中实现了最先进的性能。
主要更新与模型架构
- 模型升级:PaliGemma 2 是 2024 年发布的 PaliGemma 家族的更新版本。
- 架构:它使用了与原始 PaliGemma 相同的 SigLIP-So400m 视觉编码器,但升级到了 Gemma 2 LLM。
- 模型规模:PaliGemma 2 家族包含九个不同模型,结合了 2B、9B 和 27B 参数的 LLM 大小以及 224、448 和 896 像素平方分辨率的视觉编码器。
性能表现
- 基准测试:PaliGemma 2 在多个基准测试中设置了新的最先进记录,包括光学字符识别(OCR)、分子结构识别和放射学报告生成。
- 微调版本:Google 还发布了基于 Descriptions of Connected and Contrasting Images (DOCCI) 数据集微调的变体,这些变体能够生成更长、更详细的图像描述,且“比其他 VLM 生成的句子更符合事实”。
- 量化性能:团队还评估了在 CPU 上运行的量化版本模型的性能和推理速度,结果显示从全 32 位到混合精度量化的模型权重“没有实际的质量差异”。
社区与应用
- 社区参与:Google 鼓励开发者加入 Gemma 社区,分享项目并共同探索 AI 的无限潜力。
- 应用场景:尽管 PaliGemma 2 目前不支持多图像输入,但其在视觉 RAG(检索增强生成)等任务中仍有广泛应用潜力。
相关讨论
- Hacker News 讨论:有用户指出 PaliGemma 2 在微调方面表现出色,但缺乏对多图像输入的支持。
- X 平台讨论:Gemma 团队成员 Glenn Cameron 提到 PaliGemma 2 可以生成机器人命令,但不建议用于高风险任务。
资源与工具
- Huggingface 资源:PaliGemma 2 的基础模型和微调版本以及微调脚本已在 Huggingface 上发布。
- 在线演示:Huggingface 还提供了一个基于网络的视觉问答演示,展示了微调后的 PaliGemma 2 模型。
相关背景
- 机器人控制:InfoQ 此前报道了 Google 在机器人控制中使用 VLM 的工作,包括 Robotics Transformer 2 (RT-2) 和 PaLM-E,后者结合了 PaLM 和 Vision Transformer (ViT) 模型。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。