Google Cloud语音API中的转录文件大小

提问于 2024-04-29T08:07:55+08:00

浏览次

1

Google Cloud Speech API要求您将sync recognition mode用于运行时间不到一分钟的音频文件，如果音频文件超过一分钟则使用async recognition mode .

如何基于音频文件大小来分析用于获取脚本的接口？或者如何找到音频durig转录的总时间或如何处理这种情况？

1 回答

1
音频文件大小与确定音频持续时间无关，因为音频文件由多个音频样本组成（此样本总数取决于每秒采集的音频样本数，以赫兹为单位），每个具有给定大小的样本（编码样本需要多少位） .

您可能会发现sox实用程序及其 soxi 程序可用于确定音频文件的持续时间 . soxi 将解析音频文件的 Headers 以提供该信息 . 以下是WAV文件的示例：
```
$ soxi audiofile.wav

Input File     : 'audiofile.wav'
Channels       : 2
Sample Rate    : 48000
Precision      : 16-bit
Duration       : 00:00:59.76 = 2868480 samples ~ 4482 CDDA sectors
File Size      : 11.5M
Bit Rate       : 1.54M
Sample Encoding: 16-bit Signed Integer PCM
```
这有帮助！
回复于 2024-04-29T08:07:55+08:00

相关问题