用计算机视觉对我的黑胶唱片收藏进行编目

发布于 2025-07-27

主要观点：作者时常想整理 vinyl 唱片列表，之前用文本文件记录但存在问题，于是决定构建基于计算机视觉的 vinyl 编目工具。通过设置摄像头拍摄唱片帧，将帧发送给 ChatGPT 检索专辑元信息并保存到 CSV 文件。
关键信息：

构建工具的过程：考虑多种方法如使用 LLM 处理视频、训练计算机视觉模型识别唱片封面等，最终决定用 MobileCLIP 模型识别独特帧并分类，通过计算相似性确定是否为 vinyl 唱片，保存到文件。
识别专辑信息：先用 MobileCLIP 识别唱片帧，再将图像发送给 GPT-4 with Vision API 检索专辑名和艺术家名，结果保存到 CSV 文件。
项目反思：该项目展示利用现成基础模型构建索引系统，算法可用于其他图像嵌入模型和 LLM，有广泛应用，项目源代码在 GitHub 上可自行尝试。
重要细节：
用 MobileCLIP 时，通过计算三个提示（vinyl record、something else、open palm）的嵌入来识别帧，vinyl record 需在最后 50 帧中出现 10 次以上才保存帧，open palm 用于终止程序。
向 GPT-4 with Vision API 发送图像并使用特定提示获取专辑和艺术家信息，若信息无法提取则记录错误。
代码可更新提示以识别其他对象，项目 GitHub 仓库有设置说明。

阅读 91