如何在将扫描文档传递给 tesseract 进行 OCRing 之前从扫描文档中删除图形？答案

【问题标题】：How to remove graphic from scanned document before passing it to tesserract for OCRing?如何在将扫描文档传递给 tesseract 进行 OCRing 之前从扫描文档中删除图形？
【发布时间】：2013-10-23 03:20:34
【问题描述】：

我正在处理 OCR 项目，但我不知道如何从扫描的文档图像中删除图形，然后再将其传递给 tesseract。下面是一些我要删除图形的扫描文档：

http://www.mediafire.com/view/hvmpty2z3cw3vao/IMG_0087.JPG

http://www.mediafire.com/view/1sgy5s2aaj2o8y3/IMG_0086.JPG

非常感谢任何建议。非常感谢。

【问题讨论】：

别忘了选择适合您的答案。

标签： ocr tesseract

【解决方案1】：

由于文本区域通常是稀疏的，并且不相互连接，因此可以考虑对原始图像进行sobel边缘检测，并以一定的阈值检测最大的连接区域来检测图像区域。

同时，由于图像是一个矩形区域，另一种方法是使用霍夫平移来检测直线，使其由 4 条线组成的矩形。如果你这样走，建议你先缩放图像，以降低计算复杂度。

【讨论】：

感谢您的回答。我会考虑你的想法。

【解决方案2】：

您可以从使用AForge.Net 中提供的算法检测文本区域开始。请参阅 HorizontalRunLengthSmoothing 和 VerticalRunLengthSmoothing。该算法不是很复杂，您可以使用您喜欢的图像处理库轻松实现它。唯一的限制是大致了解图像中字符的大小。

【讨论】：