使用 Whisper 的字幕生成器 · 技术漫谈

发布于 2025-01-13

主要观点：使用 LLM 为《Normal People》TV 系列生成字幕，先通过 ffmpeg 提取视频音频，再用 whisper 模型将音频转为文本，给出了具体代码及运行示例，还尝试了非英语音频（《In the mood for love》），发现 whisper 模型在将生成的中文翻译转为英语时失败。
关键信息：

使用ffmpeg命令ffmpeg -i /Users/kracekumar/Movies/TV/Normal.People.S01/Normal.People.S01E01.mp4 -vn -acodec copy /Users/kracekumar/Movies/TV/Normal.People.S01/audio/Normal.People.S01E01.aac提取视频音频。
使用uv run whisper /Users/kracekumar/Movies/TV/Normal.People.S01/audio/Normal.People.S01E01.aac --model turbo -f srt --output_dir /Users/kracekumar/Movies/TV/Normal.People.S01/generated_subs/将音频转为文本。
给出批量转换的 Python 代码，包含提取音频和生成字幕的功能。
whisper 模型在将《In the mood for love》的中文音频转为英语字幕时失败，出现KeyError: 'words'错误。
重要细节：
展示了生成的前十个字幕示例，包括不同网站生成的字幕内容。
指出 LLM 生成的字幕存在文本提前出现、字幕长度及标点不一致等问题。
对生成字幕的代码进行了修改，包括调整命令行参数和添加日志记录。

阅读 85