语音识别模型

简介

Whisper 是 OpenAI 的一项语音处理项目，旨在实现语音的识别、翻译和生成任务。作为基于深度学习的语音识别模型，Whisper 具有高度的智能化和准确性，能够有效地转换语音输入为文本，并在多种语言之间进行翻译。通过不断的优化和更新，Whisper 致力于提供更加优质和高效的语音处理解决方案，以满足不同场景和需求下的语音交互应用。

官网地址：https://openai.com/research/whisper
github 地址：https://github.com/openai/whisper?tab=readme-ov-file

Whisper 的优点

Whisper 借助丰富多样的数据集，这些数据集中的语音数据与互联网上的文本记录相匹配，并结合了一种名为“注意力机制”的技术。这项技术使得 Whisper 在处理语音时，能够更加有效地捕捉到语音中的关键信息。

这种综合运用数据和先进技术的方式，使得 Whisper 提高了其在各种环境下的健壮性和准确性，能够实现更为精确、智能的语音识别和翻译，为用户提供更加出色的语音处理体验。

多任务

Whisper 并不仅仅是预测给定音频的单词，虽然这是是语音识别的核心，但它还包含许多其他附加的功能组件，例如语言活动检测、说话人二值化和逆文本正态化。

采用 Transformer 序列到序列模型可以实现针对不同的语言处理任务。包括以下几种：

语音识别
语音翻译
口语识别
语音活动检测

这些任务的输出由模型预测的令牌序列表示，使得单个模型可以代替传统的语音处理管道中的多个组件，如下所示：

在这里插入图片描述

应用

安装

openai-whisper

openai-whisper 与 python 3.8-3.11 和最新的 PyTorch 版本兼容。

使用 pip 命令安装：pip install -U openai-whisper

ffmpeg

openai-whisper 需要 ffmpeg 的环境，ffmpeg 是一个开源的跨平台音视频处理工具和框架，可以用来录制、转换和流式传输音视频内容。

官网：https://ffmpeg.org/

MAC

安装：brew install ffmpeg
验证：ffmpeg -version 出现版本信息且无报错表示安装成功。

  


![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/6ae1237ec8dc4676832e1d6683e4e4da.png)

Windows

安装：进入下载链接：https://www.gyan.dev/ffmpeg/builds/#release-builds，选择版本下载安装:
环境配置：下载解压完成后，需要将 Ffmpeg 的执行文件坐在目录添加到系统的环境变量中。
验证：在 cmd 中输入 ffmpeg -version 出现版本信息且无报错表示安装成功。

命令行

# 将音频的内容转为文本，使用base模型whisper demo1.mp3 --model base --task transcribe

命令行常用参数

参数	含义	默认
--model	要使用的 Whisper 模型名称	small
--task	转录(transcribe)或翻译(translate)	transcribe
--language	指定执行的语言	None
--temperature	指定输出内容的相似度	0
--output_dir	指定输出文件的保存路径	.

Python 代码

import whisper
# 初始化一个 base 模型
model = whisper.load_model("base")
# 传入音频文件，并得到音频输出的文本内容
res = model.transcribe("demo.mp3")
print(res["text"])

模型调用

安装 openai 第三方库，本篇教程使用 1.16.1 版本的 openai:pip install openai




def test_openai_whisper():
    # 初始化OpenAI对象
    client = OpenAI(base_url="xxx",api_key="xxx")
    # 打开一个音频文件
    audio_file1 = open("demo1.mp3", 'rb')
    audio_file2 = open("demo2.mp3", 'rb')
    # 选择模型，并且转录音频的内容
    res1 = client.audio.transcriptions.create(model="whisper-1", file=audio_file1)
    res2 = client.audio.transcriptions.create(model="whisper-1", file=audio_file2)
    # 翻译为英文
    res3 = client.audio.translations.create(model="whisper-1", file=audio_file2)
    print(f"audio1转录结果为：{res1.text}")
    print(f"audio2转录结果为：{res1.text}")
    print(f"audio2翻译结果为：{res1.text}")

总结

了解 Whisper 相关概念。
完成环境安装。
学会基础示例练习。

语音识别模型

简介

Whisper 的优点

多任务

应用

安装

openai-whisper

ffmpeg

总结

霍格沃兹测试学院

引用和评论

精准测试如何落地

一文掌握 MCP 上下文协议：从理论到实践

AI Agent爆火后，MCP协议为什么如此重要！

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略

常见的 AI 模型格式