【发布时间】:2020-05-28 20:58:39
【问题描述】:
我需要从 Pdf 中提取矩形中的文本。我测试了几种方法。但没有得到具体的文字。例如,我使用 PyMuPDF、pdfplumber、tabula、camelot、pdftables 包进行了测试。在 PyMuPDF 模块中,它要求输入开头和结尾的词来提取文本。据我了解,其余包也只是提取线条、曲线信息,而不是文本。
我想在不提供任何开始和结束文本的情况下从 PDF 中的矩形获取文本。
https://drive.google.com/file/d/1wCvik7VbEvDwbT-mapgXc8fwlq7Ao3BP/view?usp=sharing
【问题讨论】:
-
您能否提供一份您试图从中提取文本的 PDF 副本?以及您要提取的 PDF 中的文本。没有它,我们只能猜测。
-
当然。给我 5 分钟,我会准备并提供。因为我使用的是机密的 PDF。
-
嗨,moys,我编辑了问题并添加了 PDF。你现在可以检查一下吗?
-
我建议使用 Pillow(或其他一些图像识别)首先获取矩形的坐标,然后使用 pymupdf 中的这些坐标来获取里面的文本。我已经完成了第二个,但不确定前者是否可能。
标签: python text-extraction pdf-extraction pymupdf