【发布时间】:2021-07-12 15:24:12
【问题描述】:
我需要阅读 PDF 中的所有表格并将它们转换为数据框。 我找到了这段代码:
df = pd.DataFrame()
for page in pages:
index = pages.index(page)
product = product[index]
print(product)
tl = tb.read_pdf(file, pages=page,area=[box],output_format="dataframe", stream=True)
dft = tl[0]
dft.rename(columns={ dft.columns[0]: "Fascia d'età", dft.columns[1]: "Casi"}, inplace = True)
region_column = []
for i in range(0, len(dft)):
region_column.append(region)
dft['Regione'] = region_column
df = pd.concat([df, dft])
但是,tb.read_pdf() 给我带来了一个错误:
Error from tabula-java:
java.lang.UnsupportedClassVersionError: technology/tabula/CommandLineApp : Unsupported major.minor version 52.0
你知道如何克服这个问题吗? 有没有其他方法可以将 PDF 的表格提取到 Python 中的数据框?
【问题讨论】:
标签: python pdf jupyter-notebook