Python中的实时离线语音识别-Java 学习之路

我已经在一个月的大部分时间里使用Python语音识别，成为一个类似JARVIS的助手 . 我已经将语音识别模块与Google Speech API和Pocketsphinx一起使用，我直接使用Pocketsphinx而没有其他模块 . 虽然识别是准确的，但我很难处理这些软件包处理语音所花费的大量时间 . 它们的工作方式是从一个静音点录制到另一个点，然后将录音传递给STT引擎 . 在处理录音时，没有其他声音可以录制用于识别，如果我试图串行发出多个复杂命令，这可能是一个问题 .

在查看Google智能助理语音识别，Alexa的语音识别或Mac OS High Sierra的离线识别时，我看到单词被识别出来，因为我说它们没有任何停顿记录 . 我已经看到这个叫做实时识别，流识别和逐字识别 . 有没有办法在Python中执行此操作，最好是在不使用客户端的情况下离线？

我尝试（失败）通过更改SpeechRecognition识别器的暂停阈值，发言权阈值和非发言阈值来实现此目的，但这只会导致音频奇怪地分段，并且在每次识别之后仍然需要一秒钟才能再次录制 .

Python中的实时离线语音识别

相关问题