Python textract 以错误的顺序读取分页 PDF答案

【问题标题】：Python textract reads split-page PDFs in the wrong orderPython textract 以错误的顺序读取分页 PDF
【发布时间】：2021-04-20 00:04:38
【问题描述】：

我正在使用 Python 的 textract 库来读取 PDF 文件并从中提取特定信息。到目前为止，它在 99% 的文件上都能完美运行。读取分页样式的 PDF 时发生错误。

它打乱了顺序，将显示的前 2 页视为一页，因此它从最左边到最右边读取行。当我先阅读左侧然后阅读整个 PDF 的右侧时，将拆分页面作为单独的页面处理对我来说非常重要。

这是我的代码：

text = textract.process("pdfs2/filename.pdf")
text = text.decode('utf-8')

我不知道其他库是否没有同样的问题，但我尝试了 PyPDF2、pdfminer、pdf2text，到目前为止，即使从 PDF 中读取文本，texttract 也是错误问题最低的库。所以我需要找到一个带有文本的解决方案。

【问题讨论】：

标签： python pdf

【解决方案1】：

您可能想查看Textract Documentation，尤其是“多列检测和读取顺序”部分。它们为您提供了如何处理响应并有效地将数据“分类”到列或案例页面中的示例。

【讨论】：