【发布时间】:2020-05-27 14:17:42
【问题描述】:
我有一组 PIL 图像,其中一些页面正确旋转,而另一些页面旋转接近 180°。这意味着自动方向检测可能会失败,因为不是 178° 而是识别 2° 方向。
很遗憾,Tesseract 有时无法理解 2° 方向和 178° 之间的差异,因此在后一种情况下,输出完全错误。
一个简单的im.rotate(180) 会自动解决这个问题,但步骤是手动的,我希望 tesseract 自动理解文本是否颠倒。
查看一些方法,他们需要 Hough 变换来理解文档中的普遍方向。但是,在这种情况下,由于这些扫描文档的特殊方向,它们可能会失败。
有哪些自动轮换选项可用,无需依赖第三方脚本,而是保留在 Python 库中?
【问题讨论】:
标签: python-imaging-library ocr tesseract python-tesseract