【发布时间】:2020-06-30 15:21:39
【问题描述】:
我正在从事一个项目使用计算机视觉从发票中提取数据在此我正在尝试使用 opencv 和 pytesseract 从图像发票中提取数据,并且我正在使用 Regex 来隔离原始数据数据到不同的部分,如日期、供应商名称、发票编号、项目名称和项目数量。开始时我试图提取日期但遇到错误。
这是我的代码
import pytesseract
from pytesseract import Output
import cv2
img = cv2.imread('invoice.png')
d = pytesseract.image_to_data(img, output_type=Output.DICT)
n_boxes = len(d['level'])
for i in range(n_boxes):
(x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i])
img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 0, 255), 2)
cv2.imshow(img,'img')
但我得到了这个错误
File "testpdf3.py", line 12, in <module>
cv2.imshow(img,'img')
SystemError: <built-in function imshow> returned NULL without setting an error
【问题讨论】:
标签: python-3.x opencv ocr python-tesseract