主要观点:作者时常想整理 vinyl 唱片列表,之前用文本文件记录但存在问题,于是决定构建基于计算机视觉的 vinyl 编目工具。通过设置摄像头拍摄唱片帧,将帧发送给 ChatGPT 检索专辑元信息并保存到 CSV 文件。
关键信息:
- 构建工具的过程:考虑多种方法如使用 LLM 处理视频、训练计算机视觉模型识别唱片封面等,最终决定用 MobileCLIP 模型识别独特帧并分类,通过计算相似性确定是否为 vinyl 唱片,保存到文件。
- 识别专辑信息:先用 MobileCLIP 识别唱片帧,再将图像发送给 GPT-4 with Vision API 检索专辑名和艺术家名,结果保存到 CSV 文件。
- 项目反思:该项目展示利用现成基础模型构建索引系统,算法可用于其他图像嵌入模型和 LLM,有广泛应用,项目源代码在 GitHub 上可自行尝试。
重要细节: - 用 MobileCLIP 时,通过计算三个提示(vinyl record、something else、open palm)的嵌入来识别帧,vinyl record 需在最后 50 帧中出现 10 次以上才保存帧,open palm 用于终止程序。
- 向 GPT-4 with Vision API 发送图像并使用特定提示获取专辑和艺术家信息,若信息无法提取则记录错误。
- 代码可更新提示以识别其他对象,项目 GitHub 仓库有设置说明。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。