首页 文章

提高速度pytesseract OCR

提问于
浏览
2

我正在使用pytesseract v.0.1.5和tesseract v.3.02.02来分析大量的jpeg图像 . 质量非常好,但速度有点问题 .

在我的设置(i5-4460,8GB Ram)中,OCR需要大约25秒才能处理100张图像(1900x250) . 在同一台机器上,Matlab 2014b OCR也基于谷歌的tesseract代码,速度提高了30% .

是否有修改OCR的设置(例如删除不需要的词典)以使其更快?我的文字只包含英文,数字和特殊字符 /- .

我通过标准方式使用命令:

pytesseract.image_to_string(im)

非常感谢,

掠夺

1 回答

  • 1

    pytesseract是tesseract cli的薄包装,如果您不知道,根据您的平台,您可以使用不同的分析工具来测量它 . 在linux上有perf: perf record yourcommand 来记录和 perf report 来查看结果 .

    从代码中可以看出,您可以将语言限制为仅英语,您可以再次进行分析以查看它是否确实有所不同 . https://github.com/madmaze/pytesseract/blob/master/src/pytesseract.py#L128

相关问题