【问题标题】:Extract text from PDF into JSON or XML or whatever?将 PDF 中的文本提取为 JSON 或 XML 或其他什么?
【发布时间】:2019-01-01 13:52:50
【问题描述】:

我正在尝试从 PDF 中提取数据 [价格、信息和数量](我有超过 10 000 个 PDF,因此无法免费试用该网站)。 这是我得到的一个 PDF 示例:

我在 Python(这类任务的初学者和 Python 上的初学者)中尝试了它,其中包含 PyPDF2、pdfx 等几个包,但我只得到这样的文本

使用 PyPDF2:

所以可以提取价格、数量和信息,但我有不同格式的 pdf,因此无法仅使用文本和某些算法提取信息。

我想做的事情,这是可能的,因为很多网站都在做,并让人们为此付费。我想以垂直方式读取它,并将提取的数据转换为 XML/JSON 或简单的数据集。

我想按列而不是按行阅读文档

有没有办法用python或其他语言来做?

【问题讨论】:

    标签: json xml pdf


    【解决方案1】:

    首先让我告诉您,这不是一个容易解决的问题,因为野外的 PDF 文件在布局上往往非常多样化。我可以建议尝试一个非常适合从 PDF 文件中的表中提取信息的开源项目。它叫做 Tabula,你可以在https://tabula.technology 获得它。

    Tabula 将检测每个页面上的表格并将内容导出为 CSV 格式。将其保存为 CSV 后,使用 Python 获取信息应该会更容易。请注意,CSV 布局取决于 PDF 中的表格布局,这意味着您可能需要创建多个函数才能正确提取信息。

    Tabula 并不完美,但它应该适用于大多数 PDF 文件,对于那些不适用的文件,您可能需要手动提取信息。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-07-30
      • 2018-05-26
      • 1970-01-01
      • 2020-09-10
      • 1970-01-01
      • 1970-01-01
      • 2011-03-25
      • 2020-01-04
      相关资源
      最近更新 更多