【问题标题】:Python Read PDFPython 阅读 PDF
【发布时间】:2021-07-12 15:24:12
【问题描述】:

我需要阅读 PDF 中的所有表格并将它们转换为数据框。 我找到了这段代码:

df = pd.DataFrame()
for page in pages:
    
    index = pages.index(page)
    product = product[index]
    print(product)
    
    tl = tb.read_pdf(file, pages=page,area=[box],output_format="dataframe", stream=True)
    
    dft = tl[0]
    dft.rename(columns={ dft.columns[0]: "Fascia d'età", dft.columns[1]: "Casi"}, inplace = True)
    
    region_column = []
    for i in range(0, len(dft)):
        region_column.append(region)
    dft['Regione'] = region_column
    
    df = pd.concat([df, dft])

但是,tb.read_pdf() 给我带来了一个错误:

Error from tabula-java:
java.lang.UnsupportedClassVersionError: technology/tabula/CommandLineApp : Unsupported major.minor version 52.0

你知道如何克服这个问题吗? 有没有其他方法可以将 PDF 的表格提取到 Python 中的数据框?

【问题讨论】:

    标签: python pdf jupyter-notebook


    【解决方案1】:

    听起来您的 Java 运行时环境不是最新的。 确保您运行的是 Java 8,它是 tabula-py 的先决条件。

    【讨论】:

    • 谢谢,您能告诉我如何查看这些信息吗?
    • @DanielaRodrigues 这取决于你的操作系统和 java 版本,有趣的是,检查this link 以获取来自 oracle 本身的信息
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-05-26
    • 2022-01-20
    • 2023-03-07
    • 2018-01-29
    • 1970-01-01
    • 2011-10-29
    相关资源
    最近更新 更多