【发布时间】:2021-05-23 14:45:03
【问题描述】:
我试图在 pdf 中只标记几个单词,结果我想只使用 pytesseract 制作一个新的 pdf。
代码如下:
images = convert_from_path(name,poppler_path=r'C:\Program Files\poppler-0.68.0\bin')
for i in images:
img = cv.cvtColor(np.array(i),cv.COLOR_RGB2BGR)
d = pytesseract.image_to_data(img,output_type=Output.DICT,lang='eng+equ',config="--psm 6")
boxes = len(d['level'])
for i in range(boxes):
for e in functionEvent: #functionEvent is a list of strings
if e in d['text'][i]:
(x,y,w,h) = (d['left'][i],d['top'][i],d['width'][i],d['height'][i])
cv.rectangle(img,(x,y),(x+w,y+h),(0,255,0),2)
pdf = pytesseract.image_to_pdf_or_hocr(img,extension='pdf')
with open('results.pdf','w+b') as f:
f.write(pdf)
我尝试了什么:
with open('results.pdf','a+b') as f:
f.write(pdf)
如果您知道如何解决此问题,请告诉我。 另外,如果您推荐另一个模块或您的意见我应该如何编写代码,我根本不在乎。
提前致谢!
【问题讨论】:
标签: python python-3.x python-tesseract