【发布时间】:2016-10-11 06:15:55
【问题描述】:
我需要使用 Pytesseract 从这张图片中提取文字:
和代码:
from PIL import Image, ImageEnhance, ImageFilter
import pytesseract
path = 'pic.gif'
img = Image.open(path)
img = img.convert('RGBA')
pix = img.load()
for y in range(img.size[1]):
for x in range(img.size[0]):
if pix[x, y][0] < 102 or pix[x, y][1] < 102 or pix[x, y][2] < 102:
pix[x, y] = (0, 0, 0, 255)
else:
pix[x, y] = (255, 255, 255, 255)
img.save('temp.jpg')
text = pytesseract.image_to_string(Image.open('temp.jpg'))
# os.remove('temp.jpg')
print(text)
而“temp.jpg”是
还不错,但是打印的结果是,2 WW
文本不对2HHH,那要怎么去掉那些黑点呢?
【问题讨论】:
标签: python image image-processing computer-vision ocr