主要观点:比较两张图像的结构变化是 AI 难以应对的任务,生成式 AI 虽擅长识别和解释图像内容,但仅能识别明确训练过的方面差异,图像比较库需高度对齐,当前技术在视觉测试自动化中都有不足。人类通过眼球运动、对应问题解决等方式能快速找到图像差异,而 AI 在此方面仍有很大提升空间,文中还提出了一些解决图像比较问题的方法。
关键信息:
- 生成式 AI 基于多模态语言模型在识别和解释图像内容方面表现出色,但在图像结构变化比较上有局限。
- 图像比较库要求高度对齐,像素级比较对微小失真不宽容。
- 人类通过眼球运动等方式解决对应问题,进行图像差异比较。
- 提出训练 CNN 比较图像片段及检测和补偿大失真的算法来解决图像比较问题。
重要细节: - 以两张柏林地图为例,多种 AI 模型无法识别地图中缺失街道的差异,像素级算法会产生大量假阳性。
- 人类比较图像时先解决对应问题,眼球微小运动可叠加对应图像区域,视觉皮层与丘脑的连接体现了人类的假设驱动感知。
- 比较图像需考虑图像对是否相等及使它们相等的最小变化,简单像素级比较在现代用户界面中失败,可使用卷积神经网络解决。
- 对于大位移的情况,增加神经网络窗口大小会增加计算复杂度,可训练网络返回位移向量来解决。文中给出了相应的算法和代码示例。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。