【发布时间】:2020-08-20 13:20:53
【问题描述】:
我是 python 新手,我正在尝试阅读 PDF 文件以提取 ID No.。到目前为止,我已经成功地使用pdfplumber 从 PDF 文件中提取了文本。下面是代码块:
import pdfplumber
with pdfplumber.open('ABC.pdf') as pdf_file:
firstpage = pdf_file.pages[0]
raw_text = firstpage.extract_text()
print (raw_text)
这是文本输出:
Welcome to ABC
01 January, 1991
ID No. : 10101010
Welcome to your ABC portal. Learn
More text here..
Even more text here..
Mr Jane Doe
Jack & Jill Street Learn more about your
www.abc.com
....
....
....
但是,我无法找到进一步解析此非结构化文本的最佳方法。我期望的最终输出只是 ID 号,即10101010。附带说明一下,该脚本将用于处理相当大量的 PDF,因此性能值得关注。
【问题讨论】:
-
这个查询只是一个滚动到一个程序的函数,它应该分割巨大的 PDF 文件,我发现这些文件可以很好地与 python 配合使用,因此是首选。顺便说一句,你在想什么?
-
@LarsSkaug:定义“慢”。评论相当笼统和自以为是。
-
@NobleAbraham:正如我在下面的回答中所提到的,Scala 可能值得你看看。 Python 很棒,但不是万能的。如果你还是要开始,为什么不看看 Scala?