【发布时间】:2015-03-01 12:45:01
【问题描述】:
我正在使用 pytesseract v.0.1.5 和 tesseract v.3.02.02 来分析大量 jpeg 图像。质量非常好,但速度有点问题。
在我的设置(i5-4460、8GB Ram)中,OCR 需要大约 25 秒来处理 100 张图像 (1900x250)。在同一台机器上,同样基于 google 的 tesseract 代码的 Matlab 2014b OCR 速度提高了 30%。
是否可以修改 OCR 的设置(例如删除不需要的字典)以使其更快?我的文字只包含英文、数字和特殊字符/ 和-。
我正在通过标准方式使用命令:
pytesseract.image_to_string(im)
非常感谢,
哈利
【问题讨论】:
标签: python performance ocr tesseract