【问题标题】:Tesseract OCR with numeric tables带有数字表的 Tesseract OCR
【发布时间】:2019-05-15 10:26:06
【问题描述】:

我需要 OCR 旧的统计表,其中包含给定区域中每个城镇的数值。我使用 Tesseract 4.0.0-beta.3, 并且在大多数情况下我得到了可接受的结果,但在其他一些情况下,软件无法识别表的结构并跳过行或整列。 p>

我试图通过检查--help-psm 来应用更合适的配置,但老实说,我不知道哪一个可以改善我的结果。我还尝试将表格分割成单独的列,但结果更糟。我想问题是某些单元格包含 1 或 2 位数字,并且行被认为是短的,这通常是好的,但在这里它是相当有问题的。您会使用哪些设置来优化结果?

【问题讨论】:

    标签: ocr tesseract


    【解决方案1】:

    在我使用的类似情况下

    tesseract image test --psm 6 --oem 0 digits
    

    我什至删除了左边的文本 - 待处理 分开。
    数字识别没问题,但我的问题是,我有大约 10 列,有些行中有些是空白的,但 tesseract 有时会忽略垂直线,有时会意外地将它们显示为“1”。
    我尝试了几种设置,甚至删除了垂直线,但无法让 tesseract 保留表格结构以供后续计算机读取。

    希望对你有帮助。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2010-09-07
      • 2013-04-25
      • 1970-01-01
      • 2015-08-09
      • 2013-07-07
      • 1970-01-01
      • 2013-02-06
      • 2012-11-17
      相关资源
      最近更新 更多