使用 pytesseract python 从扫描的 PDF 中提取表格到 csv答案

【问题标题】：Extract table into csv from scanned PDF by using pytesseract python使用 pytesseract python 从扫描的 PDF 中提取表格到 csv
【发布时间】：2020-05-01 00:20:01
【问题描述】：

我有不同类型的发票文件，我想在每个发票文件中查找表格。我可以使用 'pdf2jpg' 方法将扫描的 pdf 转换为图像，现在我必须从每张发票中提取表格并使用 OCR pytesseract 方法写入 csv 文件。请帮忙。

【问题讨论】：

你无法在 pytesseract 中得到它。 Pytesseract 应该只是从 pdf 文件中提取所有文本。 This 应该对你有帮助。
根据pdf的制作方式，您最好直接使用pdf2txt，而不是转换为jpg然后尝试ocr。如果 pdf 是从纸质发票上扫描出来的，那将无济于事，但如果它是直接生成的，则无需尝试使用 ocr 即可获取文本。
@Siddharth Prajosh 我已经尝试过该共享链接，但没有得到相关结果。请在下面找到我正在使用的代码 ------------------------------------------ -----
@Siddharth 我尝试在共享链接上使用代码，但现在我收到错误，因为“AttributeError：'JpegImageFile' 对象没有属性'make_blob'”。请帮忙
这能回答你的问题吗？ How to extract table as text from the PDF using Python?

标签： python python-3.x python-tesseract

【解决方案1】：

也许这段代码会对你有所帮助：

import pyautogui
import pytesseract

pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'

text = pytesseract.image_to_string('c:\\screenshot\\test.png')

f = open('c:\\screenshot\\csvfile_1.csv','w')
f.write(text)
f.close()

【讨论】：