用 Common Lisp 从 YouTube 中进行 OCR 音乐

主要观点:作者喜欢一首名为“Supersquatting”的 chiptune 音乐,虽认为其用常规工具不可能达到如此效果,但发现是 8 通道 FastTracker II 制作。因找不到该音乐上传资源,作者想通过 OCR 从 YouTube 视频获取音符数据,尝试了 Tesseract、ChatGPT 等方法均效果不佳,最后采用 oldskool pixel diffing 方法,利用 Lisp 代码和相关库成功提取字符图像并格式化输出到剪贴板,虽声音不如原模块好但满足了好奇心,代码在这里,还提到若喜欢视频处理问题可申请 Recall.ai。

关键信息:

  • “Supersquatting”音乐由 Dubmood 和 Zabutom 创作,用 8 通道 FastTracker II 制作。
  • 尝试 OCR 方法获取音符数据,Tesseract 效果差,ChatGPT 偶尔出错。
  • oldskool pixel diffing 方法通过在 GIMP 中提取字符图像并编写代码处理。
  • 利用 Lisp 相关库进行图像操作和交互,如 show 函数显示图像,with-output-to-clipboard 函数将输出发送到剪贴板。
  • 最终将处理后的数据发送到 OpenMPT ,声音不如原模块但满足好奇心,代码在指定仓库。

重要细节:

  • 介绍了 chiptune 音乐及相关软件、文化。
  • 提及各种方法的尝试过程及效果不佳的原因。
  • 说明 Lisp 代码的具体功能和使用方式。
  • 提到后续计划将此音符数据用于游戏制作并需获得作者许可。
阅读 7
0 条评论