ggerganov/whisper.cpp · Hugging Face
安装
从 Hugging Face 下载
阿里镜像
https://modelscope.cn/models/cjc1887415157/whisper.cpp/files
转录音频
音频格式必须转化ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav
# 1. 编译程序 main
make
# 2. 下载模型
# 3. 转录 -m 指定模型路径 -f 指定语音路径
./main -m ./ggml-tiny.bin -f ./samples/jfk.wav
quantized model
-q5
后缀
更快,内存占用更小 例如: ./main -m ./ggml-tiny-q5_1.bin -f ./samples/jfk.wav
苹果神经引擎 例如: iphone和mac
会比正常的转译快3倍 可以和 quantized model
结合使用更快
-encoder.mlmodelc
后缀
# 编译 whisper.cpp 用来支持 Core ML
make clean
WHISPER_COREML=1 make -j
生成卡拉OK风格的视频
# 1. 生成wts文件
./main -m ./ggml-tiny-q5_1.bin -f ./samples/jfk.wav -owts
# 2. wts转mp4
source ./samples/jfk.wav.wts
# 3. 播放视频
ffplay ./samples/jfk.wav.mp4
导出为 srt 字幕文本
./main -m ./ggml-tiny-q5_1.bin -f ./samples/jfk.wav --output-srt
其他功能
tdrz
此模型可以区分每一句话是哪个人说的; Speaker segmentation
常用参数
./mina -h
帮助-m
--model model path-f
--file input WAV file path-pp
--print-colors 颜色显示转录的可信度./main -m ./ggml-tiny-q5_1.bin -f ./samples/jfk.wav --print-colors
-ml
--max-len 句子最大长度./main -m ./ggml-tiny-q5_1.bin -f ./samples/jfk.wav -ml 16
-osrt
--output-srt 导出为字幕文件 output result in a srt file-owts
卡拉OK风格的视频-pp
显示转录进度
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。