需求:我们要做一个录音即时翻译功能,通过PCM格式发送给后台返回翻译的数据,不是微笑那种录完发送然后返回
问题1:用户在说话中,那么以什么为断点返回文字,如果是按大小(假设160个byte作为一个包返回),用户说了一半就返回,会不会有断续的文字?
问题2:可以使用分贝率吗?当小于一定分贝率后,判断用户没有说话了,返回数据... 如果用户连续说几分钟,这个包就太大了吧?
需求:我们要做一个录音即时翻译功能,通过PCM格式发送给后台返回翻译的数据,不是微笑那种录完发送然后返回
问题1:用户在说话中,那么以什么为断点返回文字,如果是按大小(假设160个byte作为一个包返回),用户说了一半就返回,会不会有断续的文字?
问题2:可以使用分贝率吗?当小于一定分贝率后,判断用户没有说话了,返回数据... 如果用户连续说几分钟,这个包就太大了吧?
3 回答938 阅读✓ 已解决
2 回答1k 阅读✓ 已解决
1 回答817 阅读✓ 已解决
2 回答929 阅读
2 回答868 阅读
1 回答803 阅读
1 回答854 阅读