Python 阅读 PDF答案

【问题标题】：Python Read PDFPython 阅读 PDF
【发布时间】：2021-07-12 15:24:12
【问题描述】：

我需要阅读 PDF 中的所有表格并将它们转换为数据框。我找到了这段代码：

df = pd.DataFrame()
for page in pages:
    
    index = pages.index(page)
    product = product[index]
    print(product)
    
    tl = tb.read_pdf(file, pages=page,area=[box],output_format="dataframe", stream=True)
    
    dft = tl[0]
    dft.rename(columns={ dft.columns[0]: "Fascia d'età", dft.columns[1]: "Casi"}, inplace = True)
    
    region_column = []
    for i in range(0, len(dft)):
        region_column.append(region)
    dft['Regione'] = region_column
    
    df = pd.concat([df, dft])

但是，tb.read_pdf() 给我带来了一个错误：

Error from tabula-java:
java.lang.UnsupportedClassVersionError: technology/tabula/CommandLineApp : Unsupported major.minor version 52.0

你知道如何克服这个问题吗？有没有其他方法可以将 PDF 的表格提取到 Python 中的数据框？

【问题讨论】：

标签： python pdf jupyter-notebook

【解决方案1】：

听起来您的 Java 运行时环境不是最新的。确保您运行的是 Java 8，它是 tabula-py 的先决条件。

【讨论】：

谢谢，您能告诉我如何查看这些信息吗？
@DanielaRodrigues 这取决于你的操作系统和 java 版本，有趣的是，检查this link 以获取来自 oracle 本身的信息