将 PDF 中的文本提取为 JSON 或 XML 或其他什么？答案

【问题标题】：Extract text from PDF into JSON or XML or whatever?将 PDF 中的文本提取为 JSON 或 XML 或其他什么？
【发布时间】：2019-01-01 13:52:50
【问题描述】：

我正在尝试从 PDF 中提取数据 [价格、信息和数量]（我有超过 10 000 个 PDF，因此无法免费试用该网站）。这是我得到的一个 PDF 示例：

我在 Python（这类任务的初学者和 Python 上的初学者）中尝试了它，其中包含 PyPDF2、pdfx 等几个包，但我只得到这样的文本

使用 PyPDF2：

所以可以提取价格、数量和信息，但我有不同格式的 pdf，因此无法仅使用文本和某些算法提取信息。

我想做的事情，这是可能的，因为很多网站都在做，并让人们为此付费。我想以垂直方式读取它，并将提取的数据转换为 XML/JSON 或简单的数据集。

我想按列而不是按行阅读文档

有没有办法用python或其他语言来做？

【问题讨论】：

标签： json xml pdf

【解决方案1】：

首先让我告诉您，这不是一个容易解决的问题，因为野外的 PDF 文件在布局上往往非常多样化。我可以建议尝试一个非常适合从 PDF 文件中的表中提取信息的开源项目。它叫做 Tabula，你可以在https://tabula.technology 获得它。

Tabula 将检测每个页面上的表格并将内容导出为 CSV 格式。将其保存为 CSV 后，使用 Python 获取信息应该会更容易。请注意，CSV 布局取决于 PDF 中的表格布局，这意味着您可能需要创建多个函数才能正确提取信息。

Tabula 并不完美，但它应该适用于大多数 PDF 文件，对于那些不适用的文件，您可能需要手动提取信息。

【讨论】：