音频处理分割？

Question

目前需要用whsiper做语音转录服务，whisper限制25M的大小，请问该如何做这个事情？目前的需求是 Android iOS Web 都需要这个功能，
目前有几种方案：

做一个音频分割服务器，然后在做一个转录服务。前端拿到语音文件之后，把语音文件传给音频分割服务器，分割服务器根据波形进行分割，分割完之后传给转录接口。

问题：这样做的话是不是会造成语音上传多次导致时间较长的问题，因为音频要先上传到音频分割服务器在传给转录服务器

直接在前端进行分割，为了不丢失数据以及避免在句中分割，准备采用比如 2min前后的空白时间进行分割这样的方案。这样ios android web 都要做，是不是开发难度较大？

因为不太懂这个东西，请大佬们给点建议。

阅读 3.2k

1 个回答

得票最新

✓ 已被采纳

最好的方法是方案1，不过应该是前端上传到音频分割服务，这个音频分割服务不仅做了分割，还应该发送音频给转录接口，一次性完成，分割服务和转录接口应该在内网中，网络传递耗时可以忽略不计。

如果你目前不是这么设计的，想办法设计成这样。

方案二，明显不行，ios 跟 android 还能想想办法，web 直接分割的难度太大了，多平台共同维护本身也是一个很大麻烦。

撰写回答

推荐问题

相似问题

找不到问题？创建新问题