从 PDF 文档中提取文本的 Python 代码

【问题标题】：Python code to extract txt from PDF document从 PDF 文档中提取文本的 Python 代码
【发布时间】：2022-01-14 22:21:54
【问题描述】：

我一直在尝试将一些 PDF 转换为 .txt，但我在网上找到的大多数示例代码都有相同的问题：它们一次只能转换一页。我对 python 有点陌生，我没有找到如何编写 .GetPage() 方法的替代方法来一次转换整个文档。欢迎所有帮助。

import PyPDF2
 
pdfFileObject = open(r"F:\pdf.pdf", 'rb')
 
pdfReader = PyPDF2.PdfFileReader(pdfFileObject)
 
print(" No. Of Pages :", pdfReader.numPages)
 
pageObject = pdfReader.getPage(0)
 
print(pageObject.extractText())
 
pdfFileObject.close()

【问题讨论】：

标签： python pdf txt

【解决方案1】：

您可以使用for 循环来执行此操作。从循环中的页面中提取文本并将它们附加到列表中。

import PyPDF2

pages_text=[]
with open(r"F:\pdf.pdf", 'rb') as pdfFileObject:
    pdfReader = PyPDF2.PdfFileReader(pdfFileObject)

    print(" No. Of Pages :", pdfReader.numPages)
    for page in range(pdfReader.numPages):
        pageObject = pdfReader.getPage(page)
        pages_text.append(pageObject.extractText())

print(pages_text)

【讨论】：

非常感谢，伙计！这行得通。我将在这里补充一点，如果有人想将其存储为 .txt 文件，他们只需添加：lines = pages_text with open('pdf.txt', 'w') as f: for line in lines: f.write(行) f.write('\n')