使用 Whisper 的字幕生成器 · 技术漫谈

主要观点:使用 LLM 为《Normal People》TV 系列生成字幕,先通过 ffmpeg 提取视频音频,再用 whisper 模型将音频转为文本,给出了具体代码及运行示例,还尝试了非英语音频(《In the mood for love》),发现 whisper 模型在将生成的中文翻译转为英语时失败。
关键信息:

  • 使用ffmpeg命令ffmpeg -i /Users/kracekumar/Movies/TV/Normal.People.S01/Normal.People.S01E01.mp4 -vn -acodec copy /Users/kracekumar/Movies/TV/Normal.People.S01/audio/Normal.People.S01E01.aac提取视频音频。
  • 使用uv run whisper /Users/kracekumar/Movies/TV/Normal.People.S01/audio/Normal.People.S01E01.aac --model turbo -f srt --output_dir /Users/kracekumar/Movies/TV/Normal.People.S01/generated_subs/将音频转为文本。
  • 给出批量转换的 Python 代码,包含提取音频和生成字幕的功能。
  • whisper 模型在将《In the mood for love》的中文音频转为英语字幕时失败,出现KeyError: 'words'错误。
    重要细节:
  • 展示了生成的前十个字幕示例,包括不同网站生成的字幕内容。
  • 指出 LLM 生成的字幕存在文本提前出现、字幕长度及标点不一致等问题。
  • 对生成字幕的代码进行了修改,包括调整命令行参数和添加日志记录。
阅读 8
0 条评论