【发布时间】:2019-01-01 13:52:50
【问题描述】:
我正在尝试从 PDF 中提取数据 [价格、信息和数量](我有超过 10 000 个 PDF,因此无法免费试用该网站)。 这是我得到的一个 PDF 示例:
我在 Python(这类任务的初学者和 Python 上的初学者)中尝试了它,其中包含 PyPDF2、pdfx 等几个包,但我只得到这样的文本
使用 PyPDF2:
所以可以提取价格、数量和信息,但我有不同格式的 pdf,因此无法仅使用文本和某些算法提取信息。
我想做的事情,这是可能的,因为很多网站都在做,并让人们为此付费。我想以垂直方式读取它,并将提取的数据转换为 XML/JSON 或简单的数据集。
我想按列而不是按行阅读文档
有没有办法用python或其他语言来做?
【问题讨论】: