【发布时间】:2020-11-12 12:59:58
【问题描述】:
我正在尝试从 pdf 中提取特定表格,pdf 如下图所示
我在 python 上尝试了不同的库,
使用 tabula-py
from tabula import read_pdf
from tabulate import tabulate
df = read_pdf("./tmp/pdf/Food Calories List.pdf")
df
使用 PyPDF2
pdf_file = open("./tmp/pdf/Food Calories List.pdf", 'rb')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()
data = page_content
df = pd.DataFrame([x.split(';') for x in data.split('\n')])
aux = page_content
df = pd.DataFrame([x.split(';') for x in aux.split('\n')])
即使有texttract和beautiful soup,我面临的问题是输出格式一团糟,有没有办法以更好的格式提取这个表?
【问题讨论】:
标签: python data-cleaning pypdf2 tabula pdf-scraping