【发布时间】:2014-06-16 16:02:21
【问题描述】:
我正在使用 PyTesser 和 Tesseract 学习 OCR。作为第一个里程碑,我想编写一个工具来识别仅由一些数字组成的验证码。我阅读了一些教程并编写了这样一个测试程序。
from pytesser.pytesser import *
from PIL import Image, ImageFilter, ImageEnhance
im = Image.open("test.tiff")
im = im.filter(ImageFilter.MedianFilter())
enhancer = ImageEnhance.Contrast(im)
im = enhancer.enhance(2)
im = im.convert('1')
text = image_to_string(im)
print "text={}".format(text)
我用下图测试了我的代码。但结果是2(T?770。我也测试了一些其他类似的图像,在 80% 的情况下结果是不正确的。
我不熟悉图像处理。我有两个问题:
是否可以告诉
PyTesser只猜测数字?我认为图像很容易被人类阅读。如果
PyTesser仅读取数字图像如此困难,是否有任何替代方案可以做更好的 OCR?
非常感谢任何提示。
【问题讨论】:
标签: python python-imaging-library ocr pytesser