【问题标题】:Tesseract Bounding Box Problems正方体边界框问题
【发布时间】:2014-09-09 08:59:07
【问题描述】:

我的程序解析一行文本。在下图中,我在每个字符周围绘制了来自 Tesseract 结果迭代器的边界框:

显然,Tesseract 在分割行中的最后一个字符('5')时存在一些问题,检测到 3 个边界框。 最后一个字符实际上比其他字符大一点,但是当像素块的阈值如此清晰时,为什么 Tesseract 会以如此不同的方式分割该字符呢?

我已经设置了这些 Tesseract 变量:

tess.setVariable("save_blob_choices", "1");
tess.setPageSegMode(PageSegMode.PSM_SINGLE_LINE);
tess.setVariable(TessBaseAPI.VAR_CHAR_WHITELIST, "0123456789"
and textord_min_xheight set to the pixel height of the above image

有什么建议吗?

【问题讨论】:

    标签: java tesseract image-segmentation bounding-box


    【解决方案1】:

    我没有找到任何解决此问题的方法。 Tesseract 的文档记录很差。

    我最终找到了每个字符的轮廓,然后使用页面分割模式 PSM_SYMBOL 将字符的每个子图像传递给 Tesseract。最后,这也比之前的方法快了一倍!

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2019-07-28
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-03-10
      相关资源
      最近更新 更多