【发布时间】:2020-05-01 00:20:01
【问题描述】:
我有不同类型的发票文件,我想在每个发票文件中查找表格。我可以使用 'pdf2jpg' 方法将扫描的 pdf 转换为图像,现在我必须从每张发票中提取表格并使用 OCR pytesseract 方法写入 csv 文件。请帮忙。
【问题讨论】:
-
你无法在 pytesseract 中得到它。 Pytesseract 应该只是从 pdf 文件中提取所有文本。 This 应该对你有帮助。
-
根据pdf的制作方式,您最好直接使用pdf2txt,而不是转换为jpg然后尝试ocr。如果 pdf 是从纸质发票上扫描出来的,那将无济于事,但如果它是直接生成的,则无需尝试使用 ocr 即可获取文本。
-
@Siddharth Prajosh 我已经尝试过该共享链接,但没有得到相关结果。请在下面找到我正在使用的代码 ------------------------------------------ -----
-
@Siddharth 我尝试在共享链接上使用代码,但现在我收到错误,因为“AttributeError:'JpegImageFile' 对象没有属性'make_blob'”。请帮忙
标签: python python-3.x python-tesseract