【问题标题】:Python code to extract txt from PDF document从 PDF 文档中提取文本的 Python 代码
【发布时间】:2022-01-14 22:21:54
【问题描述】:

我一直在尝试将一些 PDF 转换为 .txt,但我在网上找到的大多数示例代码都有相同的问题:它们一次只能转换一页。我对 python 有点陌生,我没有找到如何编写 .GetPage() 方法的替代方法来一次转换整个文档。欢迎所有帮助。

import PyPDF2
 
pdfFileObject = open(r"F:\pdf.pdf", 'rb')
 
pdfReader = PyPDF2.PdfFileReader(pdfFileObject)
 
print(" No. Of Pages :", pdfReader.numPages)
 
pageObject = pdfReader.getPage(0)
 
print(pageObject.extractText())
 
pdfFileObject.close()

【问题讨论】:

    标签: python pdf txt


    【解决方案1】:

    您可以使用for 循环来执行此操作。从循环中的页面中提取文本并将它们附加到列表中。

    import PyPDF2
    
    pages_text=[]
    with open(r"F:\pdf.pdf", 'rb') as pdfFileObject:
        pdfReader = PyPDF2.PdfFileReader(pdfFileObject)
    
        print(" No. Of Pages :", pdfReader.numPages)
        for page in range(pdfReader.numPages):
            pageObject = pdfReader.getPage(page)
            pages_text.append(pageObject.extractText())
    
    print(pages_text)
    

    【讨论】:

    • 非常感谢,伙计!这行得通。我将在这里补充一点,如果有人想将其存储为 .txt 文件,他们只需添加:lines = pages_text with open('pdf.txt', 'w') as f: for line in lines: f.write(行) f.write('\n')
    猜你喜欢
    • 2012-07-20
    • 1970-01-01
    • 2011-01-18
    • 1970-01-01
    • 2011-10-23
    • 2012-07-02
    • 2019-06-26
    • 1970-01-01
    相关资源
    最近更新 更多