作者测试了 12 个语言模型(10 个本地运行,2 个基于云)来评估它们为图像生成替代文本的准确性。作者网站有 10,000 张照片,约 9,000 张无替代文本,近 20 年前开始博客时未重视,近 5 年才为新上传图像添加替代文本,仍有大部分旧照片无描述,手动写 9,000 个替代文本耗时久,所以想测试 AI 能力。
- 模型评估:测试了 12 个 AI 模型,包括 9 个在本地 MacBook Pro 上运行,1 个在高内存机器上,2 个基于云服务。详细列出各模型的信息如链接、发布日期、参数大小、内存需求等。
- 图像到文本模型工作原理:重点介绍图像到文本和多模态模型,其工作过程分两步,先进行视觉编码将图像分解为补丁并转换为嵌入表示,再用语言模型将视觉特征转化为文字。
- 比较不同 AI 模型:编写 Python 脚本用 9 个本地模型生成替代文本,可在 GitHub 仓库找到,首次运行需下载超过 50GB 模型数据,输出 JSON 响应便于集成分析。测试时挑选 5 张非标准照片,去除 EXIF 元数据以确保公平,虽测试集小但可筛选出较好模型。
- 测试图像及结果:分别对 5 张测试图像(如东京涩谷十字路口、波士顿伊莎贝拉·斯图尔特·加德纳博物馆等)进行测试,列出各模型的描述及等级,如基准云模型 GPT-4o 和 Claude 表现优秀,本地模型中 Llama 变体和 MiniCPM-V 性能较好。
- 模型准确性:使用结构化主观评分系统评估各模型描述,云模型表现近乎完美,本地模型中 Llama 变体和 MiniCPM-V 性能较强,早期模型存在重复、幻觉等问题,捕捉情绪对视觉障碍用户很重要,从实际角度看 Llama 11B 和 MiniCPM-V 较适合进一步测试。
- 可能的下一步:提出四种可能的下一步,如合并 AI 输出、等待升级、采用云模型或混合方法等,各有优缺点,需权衡 pragmatism(实用主义)和 principle(原则),作者将在未来几周内权衡这些选项。最后作者更新了使用 AI 生成替代文本的想法,先选择云模型,后建立自动化系统并扩展到 9,000 张图像,逐渐学会信任 AI。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。