【问题标题】:Delete OCR word from Image (OpenCV,Python)从图像中删除 OCR 字(OpenCV,Python)
【发布时间】:2018-04-23 21:51:48
【问题描述】:

所以,从我可以开始..

我正在使用 OCR。该脚本非常适合我的需要。它可以准确地检测单词,这对我来说是可以的。

这是结果:100% 准确率与附加图像。

from PIL import Image
import pyocr.builders
import os

os.putenv("TESSDATA_PREFIX", "C:\\Program Files (x86)\\Tesseract-OCR")

tools = pyocr.get_available_tools()
tool = tools[0]
langs = tool.get_available_languages()
lang = langs[0] #eng

file = "test.png"

txt = tool.image_to_string(Image.open(file), lang=lang, builder=pyocr.builders.TextBuilder())
print(txt + '\n')

'''
word = ['SHINE','ON','YOU','CRAZY','DIAMOND','SYD']

if word[2] in txt:
    print("## WORD IN LIST ##")
else:
    print("## NOT IN LIST ##")'''

现在的问题是:如何从图像中删除存在于输出 OCR 列表中的单词(在名为 txt 的代码中)? 我的意思是,如果 SHINE 这个词作为输出存在于控制台(和列表中),我如何在图像中删除它?或者,如果不删除,请创建一个蒙版以便我可以隐藏它...

我认为 ocr 通过选择文本区域并在文本周围创建边界框来工作。在这种情况下,如何删除(甚至显示)这个 ROI/边界框? 在pyocr 文档中有一些关于此功能的提示(显示边界框),但我不知道如何使用它。

感谢任何帮助/提示。

谢谢

编辑:这段代码显示每个字符的边界框

import csv
import cv2
from pytesseract import pytesseract as pt

pt.run_tesseract('test.png', 'output', lang=None, boxes=True, config="hocr")

# To read the coordinates
boxes = []
with open('output.box', 'rt') as f:
    reader = csv.reader(f, delimiter = ' ')
    for row in reader:
        if len(row) == 6:
            boxes.append(row)

# Draw the bounding box
img = cv2.imread('test.png')
h, w, _ = img.shape
for b in boxes:
    img = cv2.rectangle(img,(int(b[1]),h-int(b[2])),(int(b[3]),h-int(b[4])),(255,0,0),2)

cv2.imshow('output', img)
cv2.waitKey(0)

如何告诉它只显示第一个(整个)单词?

【问题讨论】:

  • 通过检查边界框的距离(可能是你设置的<= fixed_threshold)来确定哪个在word中或检测哪个字符在序列中。
  • @Link 我运行此代码并收到以下错误 \ TypeError: run_tesseract() got an unexpected keyword argument 'boxes' Process finished with exit code 1 –,如何解决?
  • 你可以用白色填充框cv2.rectangle(img,(int(b[1]),h-int(b[2])),(int(b[3]),h-int(b[4])),(255, 255,255),-1)

标签: python opencv ocr tesseract bounding-box


【解决方案1】:

这是一个简单的方法

  • 将图像转换为灰度
  • 大津的门槛
  • 扩张以连接轮廓
  • 查找轮廓并提取每个单词的 ROI
  • 执行 OCR 并删除单词

转换成灰度后,我们用Otsu的阈值得到二值图像

接下来我们将图像反转并膨胀以形成每个单词的单个轮廓

从这里我们找到轮廓并提取每个单词的 ROI。这是检测到的 ROIs

我们将每个 ROI 投入到 Pytesseract OCR 中。如果 OCR 结果是我们要删除的单词,我们只需将 ROI 填充为白色,将其“删除”并替换到原始图像中


words_to_remove = ['on', 'you', 'crazy']

结果是

类似

words_to_remove = ['on', 'you', 'shine', 'diamond']

结果是

终于有了

words_to_remove = ['on', 'you', 'crazy', 'diamond']

import cv2
import pytesseract

words_to_remove = ['on', 'you', 'crazy', 'diamond']
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

image = cv2.imread("1.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)[1]
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (5,5))
inverted_thresh = 255 - thresh
dilate = cv2.dilate(inverted_thresh, kernel, iterations=4)

cnts = cv2.findContours(dilate, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
cnts = cnts[0] if len(cnts) == 2 else cnts[1]
for c in cnts:
    x,y,w,h = cv2.boundingRect(c)
    ROI = thresh[y:y+h, x:x+w]
    data = pytesseract.image_to_string(ROI, lang='eng',config='--psm 6').lower()
    if data in words_to_remove:
        image[y:y+h, x:x+w] = [255,255,255]

cv2.imshow("thresh", thresh)
cv2.imshow("dilate", dilate)
cv2.imshow("image", image)
cv2.waitKey(0)

【讨论】:

    猜你喜欢
    • 2020-03-07
    • 2020-06-03
    • 1970-01-01
    • 2019-05-04
    • 2020-12-05
    • 1970-01-01
    • 2018-06-20
    • 2018-05-03
    • 2018-02-26
    相关资源
    最近更新 更多