主要观点:大型具有视觉能力的语言模型(VLMs)虽在多种图像文本应用和视觉理解基准测试中表现出色,但在一些人类易完成的低级别视觉任务上仍表现不佳。
关键信息:
- 提出了包括识别两圆是否重叠、两线是否相交等 7 个简单视觉任务的 BlindTest 套件。
- 四种先进 VLMs 在该套件任务中的平均准确率仅为 58.57%,Sonnet-3.5 表现最好为 74.94%,远低于人类预期的 100%。
- 分别对各任务进行了详细描述,如不同图像的生成方式、提问方式及真实答案等,并展示了各模型在各任务上的定性样本和结果。
重要细节: - 各任务图像在尺寸、形状、颜色等方面有不同设置,如线条宽度、圆的直径、图形的排列等。
- 提问方式多样,包括直接询问数量、判断是否接触或重叠等。
- 真实答案根据不同任务有不同范围,如交点个数为 0、1、2 等。
- 各模型在不同任务和图像条件下的表现差异明显,如 GPT-4o 在某些任务中准确率波动较大,Sonnet-3.5 在一些任务中表现相对较好等。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。