VLMs 是盲的

主要观点:大型具有视觉能力的语言模型(VLMs)虽在多种图像文本应用和视觉理解基准测试中表现出色,但在一些人类易完成的低级别视觉任务上仍表现不佳。
关键信息

  • 提出了包括识别两圆是否重叠、两线是否相交等 7 个简单视觉任务的 BlindTest 套件。
  • 四种先进 VLMs 在该套件任务中的平均准确率仅为 58.57%,Sonnet-3.5 表现最好为 74.94%,远低于人类预期的 100%。
  • 分别对各任务进行了详细描述,如不同图像的生成方式、提问方式及真实答案等,并展示了各模型在各任务上的定性样本和结果。
    重要细节
  • 各任务图像在尺寸、形状、颜色等方面有不同设置,如线条宽度、圆的直径、图形的排列等。
  • 提问方式多样,包括直接询问数量、判断是否接触或重叠等。
  • 真实答案根据不同任务有不同范围,如交点个数为 0、1、2 等。
  • 各模型在不同任务和图像条件下的表现差异明显,如 GPT-4o 在某些任务中准确率波动较大,Sonnet-3.5 在一些任务中表现相对较好等。
阅读 8
0 条评论