【发布时间】:2021-02-16 17:21:24
【问题描述】:
我正在尝试在 Jupyter 笔记本中使用 PyPDF2 解析 pdf。下面是我想如何编写代码的不同部分,即一个单元格中的提取文本语句和一个新单元格中的 RegEx。但是,如果我将两段代码分开如下,RegEx 只运行文件的最后一页,而不是整个文件(12 页)。为什么会这样?我真的很想使用不同的单元格。
import PyPDF2
import re
file = open(r'file.pdf', 'rb')
doc = PyPDF2.PdfFileReader(file)
#print(doc.getNumPages())
#新单元格
for i in range(0, 12):
page = doc.getPage(i)
text = page.extractText()
#print(text)
#新单元格
doc_re = re.compile(r'S\d+_\d+', re.IGNORECASE)
result = doc_re.findall(text)
print(result)
【问题讨论】:
标签: jupyter-notebook