安装Tesseract-Ocr

pytesser3包是用来操控Tesseract-Ocr实现字符识别。首先需要安装Tesseract-Ocr这个开源字符识别引擎。各个环境下安装方式不同。

Windows下,可在我的资源下下载压缩包并解压;Linux下下载输入指令sudo apt-get install tesseract-orc   sudo apt-get install libtesseract-dev ;Mac下安装输入指令 brew install tesseract。

安装pytesser3

python提供了pytesser3包来操控Tesseract-Ocr来识别字符串。安装直接pip install pytesser3

配置

Windows下解压完Tesseract-Ocr后,需要找到python安装目录下的lib的site-backages的pytesser3的__init__.py文件,打开修改tesseract_exe_name的值为解压Tesseract-Ocr后的路径。

利用pytesser3识别字符验证码

 

识别字符验证码

步骤

  1. 读取图片
  2. 转为灰度图
  3. 图片二值化
  4. 去噪
  5. 调用pytesser识别

字符验证码图片

利用pytesser3识别字符验证码

下面代码省略了去噪一步。

from PIL import Image
import pytesser3


def Binary(x,y,img):
    for i in range(x):
        for j in range(y):
            if img[i,j] >= 180:
                img[i,j] = 255
            else:
                img[i,j] = 0
    return img

img = Image.open('bbb.jpg')
img = img.convert('L')
x, y = img.size
imgdata = img.load()

imgdata = Binary(x,y,imgdata)
print(pytesser3.image_to_string(img))
7364

 

相关文章:

  • 2021-05-17
  • 2021-08-06
  • 2022-01-31
  • 2022-12-23
  • 2022-12-23
  • 2021-05-16
  • 2022-12-23
猜你喜欢
  • 2021-06-17
  • 2021-07-03
  • 2021-09-02
  • 2021-06-10
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
相关资源
相似解决方案