【问题标题】:Improve speed pytesseract OCR提高速度 pytesseract OCR
【发布时间】:2015-03-01 12:45:01
【问题描述】:

我正在使用 pytesseract v.0.1.5 和 tesseract v.3.02.02 来分析大量 jpeg 图像。质量非常好,但速度有点问题。

在我的设置(i5-4460、8GB Ram)中,OCR 需要大约 25 秒来处理 100 张图像 (1900x250)。在同一台机器上,同样基于 google 的 tesseract 代码的 Matlab 2014b OCR 速度提高了 30%。

是否可以修改 OCR 的设置(例如删​​除不需要的字典)以使其更快?我的文字只包含英文、数字和特殊字符/-

我正在通过标准方式使用命令:

pytesseract.image_to_string(im)

非常感谢,

哈利

【问题讨论】:

    标签: python performance ocr tesseract


    【解决方案1】:

    pytesseract 是 tesseract cli 的精简包装器,如果您真的不需要 python api,只需调用普通 tesseract。使用包装器会增加开销。我不知道多少,根据您的平台,您有不同的分析工具来衡量它。在 linux 上有 perf:perf record yourcommand 用于记录,perf report 用于查看结果。

    从代码中可以看出,您可以将语言限制为仅英语,您可以再次配置文件以查看它是否有任何区别。 https://github.com/madmaze/pytesseract/blob/master/src/pytesseract.py#L128

    【讨论】:

    猜你喜欢
    • 2021-01-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-06-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多