【发布时间】:2020-06-25 10:27:27
【问题描述】:
我使用 chrome 使用另存为 pdf 选项将网页转换为 Pdf。现在的问题是,当我使用 PyPDF2 从中提取数据时,它显示为 Null,而它可以轻松地处理其他 pdf 文件。我知道我可以直接从网站中提取数据,但我想了解为什么这不起作用。它显示了正确的页数,但是当我提取文本()时,它什么也没显示。有谁知道是什么问题? 该页面的链接是https://en.wikipedia.org/wiki/Rapping。我将此网页转换为 pdf。
import PyPDF2
pdfFileObj = open('C:/Users/System/Desktop/Rapping - Wikipedia.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print(pdfReader.numPages)
pageObj = pdfReader.getPage(0)
print(pageObj.extractText())
pdfFileObj.close()
【问题讨论】:
-
没有代码和问题 pdf 文件我怀疑任何人都可以提供比猜测更好的东西
标签: python pdf data-extraction pypdf2