用计算机视觉对我的黑胶唱片收藏进行编目

主要观点:作者时常想整理 vinyl 唱片列表,之前用文本文件记录但存在问题,于是决定构建基于计算机视觉的 vinyl 编目工具。通过设置摄像头拍摄唱片帧,将帧发送给 ChatGPT 检索专辑元信息并保存到 CSV 文件。
关键信息:

  • 构建工具的过程:考虑多种方法如使用 LLM 处理视频、训练计算机视觉模型识别唱片封面等,最终决定用 MobileCLIP 模型识别独特帧并分类,通过计算相似性确定是否为 vinyl 唱片,保存到文件。
  • 识别专辑信息:先用 MobileCLIP 识别唱片帧,再将图像发送给 GPT-4 with Vision API 检索专辑名和艺术家名,结果保存到 CSV 文件。
  • 项目反思:该项目展示利用现成基础模型构建索引系统,算法可用于其他图像嵌入模型和 LLM,有广泛应用,项目源代码在 GitHub 上可自行尝试。
    重要细节:
  • 用 MobileCLIP 时,通过计算三个提示(vinyl record、something else、open palm)的嵌入来识别帧,vinyl record 需在最后 50 帧中出现 10 次以上才保存帧,open palm 用于终止程序。
  • 向 GPT-4 with Vision API 发送图像并使用特定提示获取专辑和艺术家信息,若信息无法提取则记录错误。
  • 代码可更新提示以识别其他对象,项目 GitHub 仓库有设置说明。
阅读 12
0 条评论