【问题标题】:How to remove graphic from scanned document before passing it to tesserract for OCRing?如何在将扫描文档传递给 tesseract 进行 OCRing 之前从扫描文档中删除图形?
【发布时间】:2013-10-23 03:20:34
【问题描述】:

我正在处理 OCR 项目,但我不知道如何从扫描的文档图像中删除图形,然后再将其传递给 tesseract。 下面是一些我要删除图形的扫描文档:

http://www.mediafire.com/view/hvmpty2z3cw3vao/IMG_0087.JPG

http://www.mediafire.com/view/1sgy5s2aaj2o8y3/IMG_0086.JPG

非常感谢任何建议。非常感谢。

【问题讨论】:

  • 别忘了选择适合您的答案。

标签: ocr tesseract


【解决方案1】:

由于文本区域通常是稀疏的,并且不相互连接,因此可以考虑对原始图像进行sobel边缘检测,并以一定的阈值检测最大的连接区域来检测图像区域。

同时,由于图像是一个矩形区域,另一种方法是使用霍夫平移来检测直线,使其由 4 条线组成的矩形。如果你这样走,建议你先缩放图像,以降低计算复杂度。

【讨论】:

  • 感谢您的回答。我会考虑你的想法。
【解决方案2】:

您可以从使用AForge.Net 中提供的算法检测文本区域开始。请参阅 HorizontalRunLengthSmoothingVerticalRunLengthSmoothing。该算法不是很复杂,您可以使用您喜欢的图像处理库轻松实现它。唯一的限制是大致了解图像中字符的大小。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2012-04-21
    • 2018-11-06
    • 1970-01-01
    • 2011-05-26
    • 2016-05-01
    • 2021-07-13
    • 2012-04-04
    • 2018-11-14
    相关资源
    最近更新 更多