嗨我想要一个语音识别api或sdk,它识别用户说出的语音并给出它的文本形式 .
详细说明如下:
在我的应用程序中,我需要播放一个音频文件,其中的文本已经存在 . 当音频开始播放时,应该突出显示的单词(来自音频文件) .
因此,如果我能够从api或sdk获得这个词,那么可以突出显示它 .
除了我搜索api很多,我遇到ceedvocalsdk但它不能免费试用 .
如果有人可以提供除我的要求或api或sdk之外的任何其他想法,我将非常感激 .
嗨我想要一个语音识别api或sdk,它识别用户说出的语音并给出它的文本形式 .
详细说明如下:
在我的应用程序中,我需要播放一个音频文件,其中的文本已经存在 . 当音频开始播放时,应该突出显示的单词(来自音频文件) .
因此,如果我能够从api或sdk获得这个词,那么可以突出显示它 .
除了我搜索api很多,我遇到ceedvocalsdk但它不能免费试用 .
如果有人可以提供除我的要求或api或sdk之外的任何其他想法,我将非常感激 .
3 回答
你可以试试
http://www.politepix.com/openears/
至于速度,应该很快,你可能没有正确使用它 . 据我所知,你已经有了文本,你需要从这个文本构建语法 .
你可以看看https://github.com/KingOfBrian/VocalKit,但我自己没试过 .
您也可以尝试Nexiwave.com .
我认为您正在寻找的功能是我们可以TimeStamping:http://nexiwave.com/index.php/applications/for-transcription-companies
它基本上采用音频和文本,然后我们在每个句子和单词上加上时间戳 .
本