提高速度 pytesseract OCR

【问题标题】：Improve speed pytesseract OCR提高速度 pytesseract OCR
【发布时间】：2015-03-01 12:45:01
【问题描述】：

我正在使用 pytesseract v.0.1.5 和 tesseract v.3.02.02 来分析大量 jpeg 图像。质量非常好，但速度有点问题。

在我的设置（i5-4460、8GB Ram）中，OCR 需要大约 25 秒来处理 100 张图像 (1900x250)。在同一台机器上，同样基于 google 的 tesseract 代码的 Matlab 2014b OCR 速度提高了 30%。

是否可以修改 OCR 的设置（例如删除不需要的字典）以使其更快？我的文字只包含英文、数字和特殊字符/ 和-。

我正在通过标准方式使用命令：

pytesseract.image_to_string(im)

非常感谢，

哈利

【问题讨论】：

标签： python performance ocr tesseract

【解决方案1】：

pytesseract 是 tesseract cli 的精简包装器，如果您真的不需要 python api，只需调用普通 tesseract。使用包装器会增加开销。我不知道多少，根据您的平台，您有不同的分析工具来衡量它。在 linux 上有 perf：perf record yourcommand 用于记录，perf report 用于查看结果。

从代码中可以看出，您可以将语言限制为仅英语，您可以再次配置文件以查看它是否有任何区别。 https://github.com/madmaze/pytesseract/blob/master/src/pytesseract.py#L128

【讨论】：

Riccardo，我按照您提供的链接将语言更改为“Eng”，还尝试按照http://tesseract-ocr.googlecode.com/svn-history/r719/trunk/doc/tesseract.1.html 中的说明使用配置选项。似乎没有任何区别..
我认为瘦包装器不会对性能产生太大影响。 tesseract 函数调用本身非常昂贵。