前端如何实现录制视频,实时文字进入输入框

突然遇到了一份需求,用户在对着摄像头说话时,要实现把声音实时转文字并输出到文本框中,并且项目部署的环境下是内网,实时翻译的API永不了,有什么其他好的思路吗?请各路大佬给出建议

阅读 2.4k
2 个回答

有一种方案是前端先录音,然后在内网的环境里部署一套语音识别的SDK,比如讯飞的语音识别之类的。前端通过getUserMedia API实现录音,调用接口把录音数据传给后端识别,后端返回识别出来的文字。

  1. 可以了解下 webkitSpeechRecognition API,当然结果肯定无法让人满意的;
  2. 可以借助 WASM 或/和 webGL 把训练好的神经网络模型放到网页里,用 JS 调用。

当然作为同行,我劝你还是把需求怼回去,或者趁年关跑路。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题