【问题标题】:Improving pytesseract correct text recognition from image从图像中改进 pytesseract 正确的文本识别
【发布时间】:2019-12-04 05:25:52
【问题描述】:

我正在尝试使用 pytesseract 模块读取验证码。它在大多数情况下都提供准确的文本,但并非一直如此。

这是读取图像、操作图像并从图像中提取文本的代码。

import cv2
import numpy as np
import pytesseract

def read_captcha():
    # opencv loads the image in BGR, convert it to RGB
    img = cv2.cvtColor(cv2.imread('captcha.png'), cv2.COLOR_BGR2RGB)

    lower_white = np.array([200, 200, 200], dtype=np.uint8)
    upper_white = np.array([255, 255, 255], dtype=np.uint8)

    mask = cv2.inRange(img, lower_white, upper_white)  # could also use threshold
    mask = cv2.morphologyEx(mask, cv2.MORPH_OPEN, cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (3, 3)))  # "erase" the small white points in the resulting mask
    mask = cv2.bitwise_not(mask)  # invert mask

    # load background (could be an image too)
    bk = np.full(img.shape, 255, dtype=np.uint8)  # white bk

    # get masked foreground
    fg_masked = cv2.bitwise_and(img, img, mask=mask)

    # get masked background, mask must be inverted 
    mask = cv2.bitwise_not(mask)
    bk_masked = cv2.bitwise_and(bk, bk, mask=mask)

    # combine masked foreground and masked background 
    final = cv2.bitwise_or(fg_masked, bk_masked)
    mask = cv2.bitwise_not(mask)  # revert mask to original

    # resize the image
    img = cv2.resize(mask,(0,0),fx=3,fy=3)
    cv2.imwrite('ocr.png', img)

    text = pytesseract.image_to_string(cv2.imread('ocr.png'), lang='eng')

    return text

对于图像的处理,我从这个stackoverflow 帖子中得到了帮助。

这是原始的验证码图片:

而这张图片是经过处理后生成的:

但是,通过使用 pytesseract,我得到了文本:AX#7rL

谁能在这里指导我如何将成功率提高到 100%?

【问题讨论】:

    标签: python opencv image-processing ocr python-tesseract


    【解决方案1】:

    由于生成的图像中有小孔,形态变换,特别是cv2.MORPH_CLOSE,可以在这里关闭孔并平滑图像

    Threshold获取二值图像(黑白)

    执行morphological operations 关闭前景中的小孔

    反转图像得到结果

    4X#7rL

    在插入 tesseract 之前,cv2.GaussianBlur() 可能也会有所帮助

    import cv2
    import pytesseract
    
    # Path for Windows
    pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
    
    # Read in image as grayscale
    image = cv2.imread('1.png',0)
    # Threshold to obtain binary image
    thresh = cv2.threshold(image, 220, 255, cv2.THRESH_BINARY)[1]
    
    # Create custom kernel
    kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (3,3))
    # Perform closing (dilation followed by erosion)
    close = cv2.morphologyEx(thresh, cv2.MORPH_CLOSE, kernel)
    
    # Invert image to use for Tesseract
    result = 255 - close
    cv2.imshow('thresh', thresh)
    cv2.imshow('close', close)
    cv2.imshow('result', result)
    
    # Throw image into tesseract
    print(pytesseract.image_to_string(result))
    cv2.waitKey()
    

    【讨论】:

    • 谢谢,它就像一个魅力。不过,我有一个要求。你介意向我解释一下代码吗?在上面的代码中添加 cmets 会很棒。谢谢。
    • 当然,我添加了 cmets。本质上,我们读入图像并执行预处理步骤,直到获得可以放入 tesseract 的干净图像。我们可以用cv2.imshow()看到每一步的变化
    猜你喜欢
    • 2020-10-17
    • 2016-10-11
    • 2021-11-14
    • 2020-06-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-03-30
    • 1970-01-01
    相关资源
    最近更新 更多