【发布时间】:2019-05-15 10:26:06
【问题描述】:
我需要 OCR 旧的统计表,其中包含给定区域中每个城镇的数值。我使用 Tesseract 4.0.0-beta.3, 并且在大多数情况下我得到了可接受的结果,但在其他一些情况下,软件无法识别表的结构并跳过行或整列。 p>
我试图通过检查--help-psm 来应用更合适的配置,但老实说,我不知道哪一个可以改善我的结果。我还尝试将表格分割成单独的列,但结果更糟。我想问题是某些单元格包含 1 或 2 位数字,并且行被认为是短的,这通常是好的,但在这里它是相当有问题的。您会使用哪些设置来优化结果?
【问题讨论】: