【发布时间】:2021-08-30 21:51:20
【问题描述】:
我有一些图像,其中两个数字由/ 分隔,非常接近它们。 Tesseract 根本无法识别该破折号,或者在大多数情况下将其识别为1(对于少数图像它有效)。
我的 Tesseract 代码:
pytesseract.image_to_string(img,lang='eng',config='--psm 7 --oem 3 -c tessedit_char_whitelist=/0123456789').strip()
我尝试过使用其他 psm 和 oem 配置。我一直在玩图像很多,例如使用cv2.threshold、cv2.cvtColor,调整大小。
编辑:
之后
img = cv2.threshold(img, 200, 255, cv2.THRESH_BINARY_INV)[1]` <br>
img = cv2.resize(img,(0,0), fx=1.5, fy=1.5)`
大多数图像返回良好的值,但其中一些在随机位置添加5(转换后的图像):
很少有案例仍然无法识别斜线。
【问题讨论】:
-
A) 你能得到最好不是 jpeg(有损)格式的更高分辨率的图像吗? b) 你可以在白色背景上制作图像黑色文本吗?
-
A) 无法获得更好的分辨率 B) 我做到了
img = cv2.threshold(img, 200, 255, cv2.THRESH_BINARY_INV)[1]
标签: python image-processing ocr tesseract python-tesseract