我已经在一个月的大部分时间里使用Python语音识别,成为一个类似JARVIS的助手 . 我已经将语音识别模块与Google Speech API和Pocketsphinx一起使用,我直接使用Pocketsphinx而没有其他模块 . 虽然识别是准确的,但我很难处理这些软件包处理语音所花费的大量时间 . 它们的工作方式是从一个静音点录制到另一个点,然后将录音传递给STT引擎 . 在处理录音时,没有其他声音可以录制用于识别,如果我试图串行发出多个复杂命令,这可能是一个问题 .

在查看Google智能助理语音识别,Alexa的语音识别或Mac OS High Sierra的离线识别时,我看到单词被识别出来,因为我说它们没有任何停顿记录 . 我已经看到这个叫做实时识别,流识别和逐字识别 . 有没有办法在Python中执行此操作,最好是在不使用客户端的情况下离线?

我尝试(失败)通过更改SpeechRecognition识别器的暂停阈值,发言权阈值和非发言阈值来实现此目的,但这只会导致音频奇怪地分段,并且在每次识别之后仍然需要一秒钟才能再次录制 .