【问题标题】:Python textract reads split-page PDFs in the wrong orderPython textract 以错误的顺序读取分页 PDF
【发布时间】:2021-04-20 00:04:38
【问题描述】:

我正在使用 Python 的 textract 库来读取 PDF 文件并从中提取特定信息。到目前为止,它在 99% 的文件上都能完美运行。读取分页样式的 PDF 时发生错误。

它打乱了顺序,将显示的前 2 页视为一页,因此它从最左边到最右边读取行。当我先阅读左侧然后阅读整个 PDF 的右侧时,将拆分页面作为单独的页面处理对我来说非常重要。

这是我的代码:

text = textract.process("pdfs2/filename.pdf")
text = text.decode('utf-8')

我不知道其他库是否没有同样的问题,但我尝试了 PyPDF2、pdfminer、pdf2text,到目前为止,即使从 PDF 中读取文本,texttract 也是错误问题最低的库。所以我需要找到一个带有文本的解决方案。

【问题讨论】:

  • 如果你还没有这样做,我建议你试试PDF Plumber,它非常强大,有据可查,并且易于使用python库来处理PDF。

标签: python pdf


【解决方案1】:

您可能想查看Textract Documentation,尤其是“多列检测和读取顺序”部分。它们为您提供了如何处理响应并有效地将数据“分类”到列或案例页面中的示例。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2018-09-25
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多