【问题标题】:How to improve fax document quality?如何提高传真文件的质量?
【发布时间】:2015-11-23 14:14:29
【问题描述】:

我一直在使用 tesseract 从分辨率为 200x200 或 200x100 dpi 的传真文档中识别 Iban 号码。文件质量很差。我正在使用 C#.net。如何提高传真文档和文本质量以提高 ocr 准确性?

【问题讨论】:

    标签: image-processing ocr text-rendering


    【解决方案1】:

    穆萨:

    传真图像可能有点棘手。最初,您可以尝试缩放或重新调整非 DPI 图像的大小,使其对应于正方形分辨率(即 - 200x200)。

    在此之后,这就是图像上的内容(文本字符及其外观)的问题。您可以执行许多图像操作,以帮助使文本对象更适合识别:

    • 腐蚀:如果文本对象在图像上显得非常粗体,那么您可以尝试腐蚀以使其变薄。
    • 膨胀:与腐蚀相反。膨胀将为有问题的对象添加像素。因此,如果文本很薄或有小间隙,执行扩张可能会有所帮助。
    • 处理点阴影:如果图像上的文本实际上是由黑白点组成的(假设这是一个 1 位的黑白图像),那么放大图像可能会对此有所帮助。或者,将图像转换为更高的位深度,使用模糊操作平滑像素,然后将其阈值化回 1 位,这有助于使文本对象变得立体。

    希望这会有所帮助。

    【讨论】:

      猜你喜欢
      • 2012-11-12
      • 1970-01-01
      • 2011-10-15
      • 1970-01-01
      • 2023-03-06
      • 1970-01-01
      • 2012-09-30
      • 1970-01-01
      • 2017-10-23
      相关资源
      最近更新 更多