tesseract-ocr 是否执行任何图像预处理？答案

【问题标题】：Does tesseract-ocr perform any image pre-processing?tesseract-ocr 是否执行任何图像预处理？
【发布时间】：2015-04-04 04:30:31
【问题描述】：

我目前正在使用 Tesseract OCR 引擎，我将它与 OpenCV 结合使用，在将图像发送到 OCR 引擎之前对图像进行预处理。但是，我想知道 Tesseract 本身是否在提取文本之前执行了一些图像预处理。如果有，Tesseract 实现了哪些方法？

我的目标是确保我不执行多余的预处理方法。我执行的一些预处理方法是adaptiveThreshold 和GaussianBlur。

任何帮助/指导将不胜感激！

编辑：我了解 Tesseract 进行基本的图像预处理。我想知道是否可以绕过这些方法并直接输入我手动处理的图像。（再次，为了避免对图像进行冗余处理）？

【问题讨论】：

看这里：stackoverflow.com/questions/27018224/…
Tesseract 做了一些内部图像处理。您可以查看此页面以了解更多信息：code.google.com/p/tesseract-ocr/wiki/ImproveQuality

【解决方案1】：

Tesseract 使用 Leptonica 库进行各种预处理操作，如 Otsu 二值化算法、膨胀、腐蚀等。但是由于这些操作不依赖于您的数据，因此在某些情况下会导致不好的结果。更多信息请阅读this page。

【讨论】：