目前需要用whsiper做语音转录服务,whisper限制25M的大小,请问该如何做这个事情? 目前的需求是 Android iOS Web 都需要这个功能,
目前有几种方案:
方案1
做一个音频分割服务器,然后在做一个转录服务。前端拿到语音文件之后,把语音文件传给音频分割服务器,分割服务器根据波形进行分割,分割完之后传给转录接口。
问题: 这样做的话是不是会造成语音上传多次导致时间较长的问题,因为音频要先上传到音频分割服务器 在传给 转录服务器
方案2
直接在前端进行分割,为了不丢失数据以及避免在句中分割, 准备采用比如 2min前后的空白时间进行分割这样的方案。 这样ios android web 都要做,是不是开发难度较大?
因为不太懂这个东西,请大佬们给点建议。
最好的方法是方案1,不过应该是前端上传到音频分割服务,这个音频分割服务不仅做了分割,还应该发送音频给转录接口,一次性完成,分割服务和转录接口应该在内网中,网络传递耗时可以忽略不计。
如果你目前不是这么设计的,想办法设计成这样。
方案二,明显不行,ios 跟 android 还能想想办法,web 直接分割的难度太大了,多平台共同维护本身也是一个很大麻烦。