【发布时间】:2014-09-09 08:59:07
【问题描述】:
我的程序解析一行文本。在下图中,我在每个字符周围绘制了来自 Tesseract 结果迭代器的边界框:
显然,Tesseract 在分割行中的最后一个字符('5')时存在一些问题,检测到 3 个边界框。 最后一个字符实际上比其他字符大一点,但是当像素块的阈值如此清晰时,为什么 Tesseract 会以如此不同的方式分割该字符呢?
我已经设置了这些 Tesseract 变量:
tess.setVariable("save_blob_choices", "1");
tess.setPageSegMode(PageSegMode.PSM_SINGLE_LINE);
tess.setVariable(TessBaseAPI.VAR_CHAR_WHITELIST, "0123456789"
and textord_min_xheight set to the pixel height of the above image
有什么建议吗?
【问题讨论】:
标签: java tesseract image-segmentation bounding-box