VLMs 是盲的 - SegmentFault 思否

VLMs 是盲的

发布于 2025-07-24

主要观点：大型具有视觉能力的语言模型（VLMs）虽在多种图像文本应用和视觉理解基准测试中表现出色，但在一些人类易完成的低级别视觉任务上仍表现不佳。
关键信息：

提出了包括识别两圆是否重叠、两线是否相交等 7 个简单视觉任务的 BlindTest 套件。
四种先进 VLMs 在该套件任务中的平均准确率仅为 58.57%，Sonnet-3.5 表现最好为 74.94%，远低于人类预期的 100%。
分别对各任务进行了详细描述，如不同图像的生成方式、提问方式及真实答案等，并展示了各模型在各任务上的定性样本和结果。
重要细节：
各任务图像在尺寸、形状、颜色等方面有不同设置，如线条宽度、圆的直径、图形的排列等。
提问方式多样，包括直接询问数量、判断是否接触或重叠等。
真实答案根据不同任务有不同范围，如交点个数为 0、1、2 等。
各模型在不同任务和图像条件下的表现差异明显，如 GPT-4o 在某些任务中准确率波动较大，Sonnet-3.5 在一些任务中表现相对较好等。

https://vlmsareblind.github.io/

阅读 32

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。