ggerganov/whisper.cpp

ggerganov/whisper.cpp · Hugging Face

安装

从 Hugging Face 下载

阿里镜像

https://modelscope.cn/models/cjc1887415157/whisper.cpp/files

转录音频

音频格式必须转化
ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav

# 1. 编译程序 main 
make
# 2. 下载模型
# 3. 转录 -m 指定模型路径 -f 指定语音路径
./main -m ./ggml-tiny.bin  -f ./samples/jfk.wav

quantized model

-q5后缀

更快,内存占用更小 例如: ./main -m ./ggml-tiny-q5_1.bin -f ./samples/jfk.wav

苹果神经引擎 例如: iphone和mac

会比正常的转译快3倍 可以和 quantized model 结合使用更快

-encoder.mlmodelc 后缀

# 编译 whisper.cpp 用来支持 Core ML
make clean
WHISPER_COREML=1 make -j

生成卡拉OK风格的视频

# 1. 生成wts文件
./main -m ./ggml-tiny-q5_1.bin -f ./samples/jfk.wav -owts
# 2. wts转mp4
source ./samples/jfk.wav.wts
# 3. 播放视频
ffplay ./samples/jfk.wav.mp4

导出为 srt 字幕文本

./main -m ./ggml-tiny-q5_1.bin -f ./samples/jfk.wav --output-srt

其他功能

  • tdrz 此模型可以区分每一句话是哪个人说的; Speaker segmentation

常用参数

  • ./mina -h 帮助
  • -m --model model path
  • -f --file input WAV file path
  • -pp --print-colors 颜色显示转录的可信度 ./main -m ./ggml-tiny-q5_1.bin -f ./samples/jfk.wav --print-colors
  • -ml --max-len 句子最大长度 ./main -m ./ggml-tiny-q5_1.bin -f ./samples/jfk.wav -ml 16
  • -osrt --output-srt 导出为字幕文件 output result in a srt file
  • -owts 卡拉OK风格的视频
  • -pp 显示转录进度

linkhanfeng
2 声望0 粉丝

引用和评论

0 条评论