音频处理分割?

目前需要用whsiper做语音转录服务,whisper限制25M的大小,请问该如何做这个事情? 目前的需求是 Android iOS Web 都需要这个功能,
目前有几种方案:

方案1

做一个音频分割服务器,然后在做一个转录服务。前端拿到语音文件之后,把语音文件传给音频分割服务器,分割服务器根据波形进行分割,分割完之后传给转录接口。

问题: 这样做的话是不是会造成语音上传多次导致时间较长的问题,因为音频要先上传到音频分割服务器 在传给 转录服务器

方案2

直接在前端进行分割,为了不丢失数据以及避免在句中分割, 准备采用比如 2min前后的空白时间进行分割这样的方案。 这样ios android web 都要做,是不是开发难度较大?

因为不太懂这个东西,请大佬们给点建议。

阅读 3.1k
1 个回答

最好的方法是方案1,不过应该是前端上传到音频分割服务,这个音频分割服务不仅做了分割,还应该发送音频给转录接口,一次性完成,分割服务和转录接口应该在内网中,网络传递耗时可以忽略不计。

如果你目前不是这么设计的,想办法设计成这样。

方案二,明显不行,ios 跟 android 还能想想办法,web 直接分割的难度太大了,多平台共同维护本身也是一个很大麻烦。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题