突然遇到了一份需求,用户在对着摄像头说话时,要实现把声音实时转文字并输出到文本框中,并且项目部署的环境下是内网,实时翻译的API永不了,有什么其他好的思路吗?请各路大佬给出建议
突然遇到了一份需求,用户在对着摄像头说话时,要实现把声音实时转文字并输出到文本框中,并且项目部署的环境下是内网,实时翻译的API永不了,有什么其他好的思路吗?请各路大佬给出建议
当然作为同行,我劝你还是把需求怼回去,或者趁年关跑路。
13 回答13.1k 阅读
8 回答3k 阅读
3 回答1.5k 阅读✓ 已解决
2 回答5.3k 阅读✓ 已解决
5 回答1.6k 阅读
7 回答2.3k 阅读
9 回答1.8k 阅读✓ 已解决
有一种方案是前端先录音,然后在内网的环境里部署一套语音识别的SDK,比如讯飞的语音识别之类的。前端通过getUserMedia API实现录音,调用接口把录音数据传给后端识别,后端返回识别出来的文字。