比较用于替代文本生成的本地大型语言模型

作者测试了 12 个语言模型（10 个本地运行，2 个基于云）来评估它们为图像生成替代文本的准确性。作者网站有 10,000 张照片，约 9,000 张无替代文本，近 20 年前开始博客时未重视，近 5 年才为新上传图像添加替代文本，仍有大部分旧照片无描述，手动写 9,000 个替代文本耗时久，所以想测试 AI 能力。

模型评估：测试了 12 个 AI 模型，包括 9 个在本地 MacBook Pro 上运行，1 个在高内存机器上，2 个基于云服务。详细列出各模型的信息如链接、发布日期、参数大小、内存需求等。
图像到文本模型工作原理：重点介绍图像到文本和多模态模型，其工作过程分两步，先进行视觉编码将图像分解为补丁并转换为嵌入表示，再用语言模型将视觉特征转化为文字。
比较不同 AI 模型：编写 Python 脚本用 9 个本地模型生成替代文本，可在 GitHub 仓库找到，首次运行需下载超过 50GB 模型数据，输出 JSON 响应便于集成分析。测试时挑选 5 张非标准照片，去除 EXIF 元数据以确保公平，虽测试集小但可筛选出较好模型。
测试图像及结果：分别对 5 张测试图像（如东京涩谷十字路口、波士顿伊莎贝拉·斯图尔特·加德纳博物馆等）进行测试，列出各模型的描述及等级，如基准云模型 GPT-4o 和 Claude 表现优秀，本地模型中 Llama 变体和 MiniCPM-V 性能较好。
模型准确性：使用结构化主观评分系统评估各模型描述，云模型表现近乎完美，本地模型中 Llama 变体和 MiniCPM-V 性能较强，早期模型存在重复、幻觉等问题，捕捉情绪对视觉障碍用户很重要，从实际角度看 Llama 11B 和 MiniCPM-V 较适合进一步测试。
可能的下一步：提出四种可能的下一步，如合并 AI 输出、等待升级、采用云模型或混合方法等，各有优缺点，需权衡 pragmatism（实用主义）和 principle（原则），作者将在未来几周内权衡这些选项。最后作者更新了使用 AI 生成替代文本的想法，先选择云模型，后建立自动化系统并扩展到 9,000 张图像，逐渐学会信任 AI。