【发布时间】:2013-06-16 04:38:39
【问题描述】:
在创建了使用 java 和 pdfbox 提取 PDF 的工具后,我一直在尝试使用 Python 提取 pdf。
虽然 Java 实现对于同一个 pdf 是成功的,但我一直在努力在 python 中做同样的事情,因为 pdfminer 和 pypdf,并且 pypdf2 无法使用空格逐行提取 pdf。特别是 pdfminer pdf2txt 出于某种奇怪的原因将 pdf 分成 3 列然后逐行读取。
我得到的最接近的是使用a stack overflow question 的实现,不幸的是它没有保留空格。鉴于我的变量都有数字,我无法以文本形式恢复它们。
鉴于此,是否可以在 Python 中逐行提取带有空格的 pdf?
【问题讨论】:
-
我从 pdf 获取文本最成功的方法是使用
pdftotext。如果你运行 linux,你可能已经在你的系统上安装了它。我曾经从我的 python 脚本运行pdftotext,打开文本文件,然后解析文本数据。它并不完美,但我发现 pdf 的格式和文本文件的格式之间存在关联,并用它来解析它。 -
哦,在运行
pdftotext时使用-layout