【发布时间】:2021-11-02 20:26:32
【问题描述】:
我已经将 PDF 页面中的文本提取到 Text 变量中。 我正在寻找字符串“你的号码是”之后的数字(14 长度的字符串在跨度(982,996)上匹配:
object=PyPDF2.PdfFileReader(filename)
Text = PageObj.extractText()
PageObj = object.getPage(0)
ResSearch = re.search(String, Text)
我得到了一个结果:span = (982, 996) match = 'your number is'。现在我只需要抓取之后出现的三位数文本('您的号码是 105'),因为文件每天都在变化,并且获取应该是动态的。
谢谢大家!!
【问题讨论】:
标签: python pdf text scrape pypdf2