主要观点:使用 LLM 为《Normal People》TV 系列生成字幕,先通过 ffmpeg 提取视频音频,再用 whisper 模型将音频转为文本,给出了具体代码及运行示例,还尝试了非英语音频(《In the mood for love》),发现 whisper 模型在将生成的中文翻译转为英语时失败。
关键信息:
- 使用
ffmpeg
命令ffmpeg -i /Users/kracekumar/Movies/TV/Normal.People.S01/Normal.People.S01E01.mp4 -vn -acodec copy /Users/kracekumar/Movies/TV/Normal.People.S01/audio/Normal.People.S01E01.aac
提取视频音频。 - 使用
uv run whisper /Users/kracekumar/Movies/TV/Normal.People.S01/audio/Normal.People.S01E01.aac --model turbo -f srt --output_dir /Users/kracekumar/Movies/TV/Normal.People.S01/generated_subs/
将音频转为文本。 - 给出批量转换的 Python 代码,包含提取音频和生成字幕的功能。
- whisper 模型在将《In the mood for love》的中文音频转为英语字幕时失败,出现
KeyError: 'words'
错误。
重要细节: - 展示了生成的前十个字幕示例,包括不同网站生成的字幕内容。
- 指出 LLM 生成的字幕存在文本提前出现、字幕长度及标点不一致等问题。
- 对生成字幕的代码进行了修改,包括调整命令行参数和添加日志记录。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。