带有数字表的 Tesseract OCR答案

【问题标题】：Tesseract OCR with numeric tables带有数字表的 Tesseract OCR
【发布时间】：2019-05-15 10:26:06
【问题描述】：

我需要 OCR 旧的统计表，其中包含给定区域中每个城镇的数值。我使用 Tesseract 4.0.0-beta.3， 并且在大多数情况下我得到了可接受的结果，但在其他一些情况下，软件无法识别表的结构并跳过行或整列。 p>

我试图通过检查--help-psm 来应用更合适的配置，但老实说，我不知道哪一个可以改善我的结果。我还尝试将表格分割成单独的列，但结果更糟。我想问题是某些单元格包含 1 或 2 位数字，并且行被认为是短的，这通常是好的，但在这里它是相当有问题的。您会使用哪些设置来优化结果？

【问题讨论】：

【解决方案1】：

在我使用的类似情况下

tesseract image test --psm 6 --oem 0 digits

我什至删除了左边的文本 - 待处理分开。
数字识别没问题，但我的问题是，我有大约 10 列，有些行中有些是空白的，但 tesseract 有时会忽略垂直线，有时会意外地将它们显示为“1”。
我尝试了几种设置，甚至删除了垂直线，但无法让 tesseract 保留表格结构以供后续计算机读取。

希望对你有帮助。

【讨论】：