突然遇到了一份需求,用户在对着摄像头说话时,要实现把声音实时转文字并输出到文本框中,并且项目部署的环境下是内网,实时翻译的API永不了,有什么其他好的思路吗?请各路大佬给出建议
突然遇到了一份需求,用户在对着摄像头说话时,要实现把声音实时转文字并输出到文本框中,并且项目部署的环境下是内网,实时翻译的API永不了,有什么其他好的思路吗?请各路大佬给出建议
当然作为同行,我劝你还是把需求怼回去,或者趁年关跑路。
10 回答11.2k 阅读
5 回答4.8k 阅读✓ 已解决
4 回答3.1k 阅读✓ 已解决
2 回答2.8k 阅读✓ 已解决
3 回答4.9k 阅读✓ 已解决
2 回答4.8k 阅读✓ 已解决
4 回答4.4k 阅读✓ 已解决
有一种方案是前端先录音,然后在内网的环境里部署一套语音识别的SDK,比如讯飞的语音识别之类的。前端通过getUserMedia API实现录音,调用接口把录音数据传给后端识别,后端返回识别出来的文字。