如何在voice to text提高ai的精度?

测试文件在这里：
链接: https://pan.baidu.com/s/1gjZmquWCeNHs2mUH9by3sg?pwd=17ev 提取码: 17ev
任务：将voice转换成text

whisper /tmp/sample.mp3 --language Chinese --model medium

转换的文本

[00:00.000 --> 00:17.320] 白玉依山径,黄河入海流,
[00:17.320 --> 00:30.200] 玉穹千里目,更上一层楼。

有无好的开源ai，可以提供高精度的识别？

人工智能 voice-recognition

阅读 532

1 个回答

得票最新

Romic

发布于
4 月 20 日广东

新手上路，请多包涵

github有类似的产品开源的 star数量很高

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

请问这些AI相关的概念，是否可以方便人性化地解释是什么呢，它们的功能和解决了哪些问题呢？
最近AI已经火了很久了，一直没有跟上学习的脚步：请问这些AI相关的概念，是否可以方便人性化地解释是什么呢，它们的功能和解决了哪些问题：AgentMCPcozecoze空间ComfyUI
4 回答712 阅读✓ 已解决
base32 crockford 编码与其他语言的实现结果不同?
需求倒是很简单，给一个Hex 格式的string，对其进行 base32(crockford) 编码，求编码结果。下面是代码，期望结果是 "2HH0GC3SRC6PAYX9Z6WVGKCEK0TEF9QC8K7J8F312QSZYEYP64MN8Y9SXR"，实际得到 "MC8430YE31NJQQAFSQ6W4V3MR6KKTDV24SWJ3RR8NYFZKQNHH55A7JEFE"。
1 回答986 阅读✓ 已解决
在向AI提问编程方面的问题时，怎么描述精准的提示词，才能让AI写出让自己满意的代码？
在向AI提问编程方面的问题时，怎么描述精准的提示词，才能让AI写出让自己满意的代码？提问过很多方式，仍然无法让AI写出满意的代码。
1 回答791 阅读
为什么英伟达nvidia的显卡经常掉驱动？？？
首先有物理显卡 {代码...} 经常好好的，睡一觉醒来驱动就掉了 {代码...} why？
3 回答675 阅读
QwQ模型为什么联网搜索没有返回搜索结果呀？
QwQ 模型为什么联网搜索没有返回搜索结果呀？用的是示例代码，返回的结果里面没有一条搜索结果的显示
1 回答792 阅读
AI如何实现识别视频里的语音为文字且记录好时间点，然后根据文字和时间点用自己克隆的声音重新合成语音？
AI如何实现识别视频里的语音为文字且记录好时间点，然后根据文字和时间点用自己克隆的声音重新合成语音？我录制视频，有时候发音错误，我想纠正。希望是国产大厂的AI工具。
1 回答681 阅读
ai studio 里面的 gemini2.5pro不具备联网能力吗？
问他小米yu7的信息，他居然不知道？说明是没有联网RAG能力吗？
1 回答547 阅读

相似问题

聊聊AIGC：如何在这波AI浪潮里找到机会？
1 回答2k 阅读
如何提高coze智能体工作流触发率？
1.4k 阅读
如何在轮毂内里面画线?
1 回答1.6k 阅读
在AI方面，AWS能提供针对性服务吗？
1 回答2k 阅读
在向AI提问编程方面的问题时，怎么描述精准的提示词，才能让AI写出让自己满意的代码？
1 回答791 阅读

找不到问题？创建新问题

如何在voice to text提高ai的精度?

你尚未登录，登录后可以

请问这些AI相关的概念，是否可以方便人性化地解释是什么呢，它们的功能和解决了哪些问题呢？

base32 crockford 编码与其他语言的实现结果不同?

在向AI提问编程方面的问题时，怎么描述精准的提示词，才能让AI写出让自己满意的代码？

为什么英伟达nvidia的显卡经常掉驱动？？？

QwQ模型为什么联网搜索没有返回搜索结果呀？

AI如何实现识别视频里的语音为文字且记录好时间点，然后根据文字和时间点用自己克隆的声音重新合成语音？

ai studio 里面的 gemini2.5pro不具备联网能力吗？