用 Common Lisp 从 YouTube 中进行 OCR 音乐

发布于 2025-01-06

主要观点：作者喜欢一首名为“Supersquatting”的 chiptune 音乐，虽认为其用常规工具不可能达到如此效果，但发现是 8 通道 FastTracker II 制作。因找不到该音乐上传资源，作者想通过 OCR 从 YouTube 视频获取音符数据，尝试了 Tesseract、ChatGPT 等方法均效果不佳，最后采用 oldskool pixel diffing 方法，利用 Lisp 代码和相关库成功提取字符图像并格式化输出到剪贴板，虽声音不如原模块好但满足了好奇心，代码在这里，还提到若喜欢视频处理问题可申请 Recall.ai。

关键信息：

“Supersquatting”音乐由 Dubmood 和 Zabutom 创作，用 8 通道 FastTracker II 制作。
尝试 OCR 方法获取音符数据，Tesseract 效果差，ChatGPT 偶尔出错。
oldskool pixel diffing 方法通过在 GIMP 中提取字符图像并编写代码处理。
利用 Lisp 相关库进行图像操作和交互，如 show 函数显示图像，with-output-to-clipboard 函数将输出发送到剪贴板。
最终将处理后的数据发送到 OpenMPT ，声音不如原模块但满足好奇心，代码在指定仓库。

重要细节：

介绍了 chiptune 音乐及相关软件、文化。
提及各种方法的尝试过程及效果不佳的原因。
说明 Lisp 代码的具体功能和使用方式。
提到后续计划将此音符数据用于游戏制作并需获得作者许可。

阅读 21