【发布时间】:2021-04-20 00:04:38
【问题描述】:
我正在使用 Python 的 textract 库来读取 PDF 文件并从中提取特定信息。到目前为止,它在 99% 的文件上都能完美运行。读取分页样式的 PDF 时发生错误。
它打乱了顺序,将显示的前 2 页视为一页,因此它从最左边到最右边读取行。当我先阅读左侧然后阅读整个 PDF 的右侧时,将拆分页面作为单独的页面处理对我来说非常重要。
这是我的代码:
text = textract.process("pdfs2/filename.pdf")
text = text.decode('utf-8')
我不知道其他库是否没有同样的问题,但我尝试了 PyPDF2、pdfminer、pdf2text,到目前为止,即使从 PDF 中读取文本,texttract 也是错误问题最低的库。所以我需要找到一个带有文本的解决方案。
【问题讨论】:
-
如果你还没有这样做,我建议你试试PDF Plumber,它非常强大,有据可查,并且易于使用python库来处理PDF。