【问题标题】:Extract table into csv from scanned PDF by using pytesseract python使用 pytesseract python 从扫描的 PDF 中提取表格到 csv
【发布时间】:2020-05-01 00:20:01
【问题描述】:

我有不同类型的发票文件,我想在每个发票文件中查找表格。我可以使用 'pdf2jpg' 方法将扫描的 pdf 转换为图像,现在我必须从每张发票中提取表格并使用 OCR pytesseract 方法写入 csv 文件。请帮忙。

【问题讨论】:

  • 你无法在 pytesseract 中得到它。 Pytesseract 应该只是从 pdf 文件中提取所有文本。 This 应该对你有帮助。
  • 根据pdf的制作方式,您最好直接使用pdf2txt,而不是转换为jpg然后尝试ocr。如果 pdf 是从纸质发票上扫描出来的,那将无济于事,但如果它是直接生成的,则无需尝试使用 ocr 即可获取文本。
  • @Siddharth Prajosh 我已经尝试过该共享链接,但没有得到相关结果。请在下面找到我正在使用的代码 ------------------------------------------ -----
  • @Siddharth 我尝试在共享链接上使用代码,但现在我收到错误,因为“AttributeError:'JpegImageFile' 对象没有属性'make_blob'”。请帮忙

标签: python python-3.x python-tesseract


【解决方案1】:

也许这段代码会对你有所帮助:

import pyautogui
import pytesseract

pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'

text = pytesseract.image_to_string('c:\\screenshot\\test.png')

f = open('c:\\screenshot\\csvfile_1.csv','w')
f.write(text)
f.close()

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2018-11-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-04-02
    • 2021-12-29
    相关资源
    最近更新 更多