pypdf 将多个pdf文件合并为一个pdf答案

【问题标题】：pypdf Merging multiple pdf files into one pdfpypdf 将多个pdf文件合并为一个pdf
【发布时间】：2013-06-10 21:25:30
【问题描述】：

如果我有 1000 多个 pdf 文件需要合并为一个 pdf，

input = PdfFileReader()
output = PdfFileWriter()
filename0000 ----- filename 1000
    input = PdfFileReader(file(filename, "rb"))
    pageCount = input.getNumPages()
    for iPage in range(0, pageCount):
        output.addPage(input.getPage(iPage))
outputStream = file("document-output.pdf", "wb")
output.write(outputStream)
outputStream.close()

执行上述代码，当input = PdfFileReader(file(filename500+, "rb")),

错误信息： IOError: [Errno 24] Too many open files:

我认为这是一个错误，如果不是，我该怎么办？

【问题讨论】：

标签： python pypdf

【解决方案1】：

我最近遇到了同样的问题，所以我研究了 PyPDF2 以了解发生了什么以及如何解决它。

注意：我假设filename 是格式正确的文件路径字符串。假设我的所有代码都一样

简短的回答

使用PdfFileMerger() 类而不是PdfFileWriter() 类。我已尝试提供以下内容以尽可能与您的内容相似：

from PyPDF2 import PdfFileMerger, PdfFileReader

[...]

merger = PdfFileMerger()
for filename in filenames:
    merger.append(PdfFileReader(file(filename, 'rb')))

merger.write("document-output.pdf")

长答案

您使用PdfFileReader 和PdfFileWriter 的方式是保持每个文件打开，并最终导致Python 生成IOError 24。更具体地说，当您向PdfFileWriter 添加页面时，您正在添加对打开的PdfFileReader 中的页面的引用（因此，如果您关闭文件，则会出现记录的 IO 错误）。 Python 检测到该文件仍被引用，并且尽管重新使用文件句柄，但不会执行任何垃圾收集/自动文件关闭。它们保持打开状态，直到 PdfFileWriter 不再需要访问它们，这在您的代码中位于 output.write(outputStream)。

要解决此问题，请在内存中创建内容副本，并允许关闭文件。在我的 PyPDF2 代码冒险中，我注意到 PdfFileMerger() 类已经具有此功能，因此我没有重新发明轮子，而是选择使用它。不过，我了解到，我最初对 PdfFileMerger 的看法还不够接近，而且它仅在特定条件下创建副本。

我最初的尝试如下所示，并导致相同的 IO 问题：

merger = PdfFileMerger()
for filename in filenames:
    merger.append(filename)

merger.write(output_file_path)

查看 PyPDF2 源代码，我们看到 append() 需要传递 fileobj，然后使用 merge() 函数，将其最后一页作为新文件位置传入。 merge() 使用 fileobj 执行以下操作（在使用 PdfFileReader(fileobj) 打开之前：

    if type(fileobj) in (str, unicode):
        fileobj = file(fileobj, 'rb')
        my_file = True
    elif type(fileobj) == file:
        fileobj.seek(0)
        filecontent = fileobj.read()
        fileobj = StringIO(filecontent)
        my_file = True
    elif type(fileobj) == PdfFileReader:
        orig_tell = fileobj.stream.tell()   
        fileobj.stream.seek(0)
        filecontent = StringIO(fileobj.stream.read())
        fileobj.stream.seek(orig_tell)
        fileobj = filecontent
        my_file = True

我们可以看到append() 选项确实接受一个字符串，并且当这样做时，假定它是一个文件路径并在该位置创建一个文件对象。最终结果与我们试图避免的事情完全相同。 PdfFileReader() 对象保持打开文件，直到文件最终被写入！

但是，如果我们将文件路径字符串的文件对象或设为 PdfFileReader^{（参见编辑 2）} 对象路径字符串之前它被传递到append()，它会自动为我们创建一个副本作为StringIO对象，允许Python关闭文件。

我会推荐更简单的merger.append(file(filename, 'rb'))，因为其他人报告说PdfFileReader 对象可能在内存中保持打开状态，即使在调用writer.close() 之后也是如此。

希望这有帮助！

编辑：我假设您使用的是PyPDF2，而不是PyPDF。如果你不是，我强烈建议切换，因为 PyPDF 不再维护，作者在开发 PyPDF2 时给予 Phaseit 官方祝福。

如果由于某种原因您无法切换到 PyPDF2（许可、系统限制等），那么您将无法使用 PdfFileMerger。在这种情况下，您可以重新使用 PyPDF2 的 merge 函数（上面提供）中的代码来创建文件的副本作为 StringIO 对象，并在代码中使用它来代替文件对象。

编辑 2： 之前使用 merger.append(PdfFileReader(file(filename, 'rb'))) 的建议根据 cmets 进行了更改（感谢 @Agostino）。

【讨论】：

老实说；我没有读过长答案。不过简短的回答很棒。
我注意到我无法删除一些附加的文件，通过调用 writer.append(PdfFileReader(file(filename, 'rb'))) 创建一个中间 PdfFileReader 对象。即使在拨打writer.close() 之后，它们仍然保持锁定状态。更简单的调用merger.append(file(filename, 'rb')) 似乎没有同样的问题。
如果文件太大会不会遇到内存问题？
@Nishant 与您在内存中创建的任何对象一样，是的。实际上，如果您要为单个 PDF 文件处理千兆字节，那么可能会有更好的解决方案。
@Rejected 好的，谢谢，值得知道。一个选择命名临时文件与内存的小实用程序函数是我见过的一个很好的解决方案。

【解决方案2】：

pdfrw包一次性读取每个文件，不会出现打开文件太多的问题。 Here 是一个示例连接脚本。

相关部分——假设inputs是输入文件名列表，outfn是输出文件名：

from pdfrw import PdfReader, PdfWriter

writer = PdfWriter()
for inpfn in inputs:
    writer.addpages(PdfReader(inpfn).pages)
writer.write(outfn)

免责声明：我是 pdfrw 的主要作者。

【讨论】：

【解决方案3】：

我写了这段代码来帮助回答：-

import sys
import os
import PyPDF2

merger = PyPDF2.PdfFileMerger()

#get PDFs files and path

path = sys.argv[1]
pdfs = sys.argv[2:]
os.chdir(path)


#iterate among the documents
for pdf in pdfs:
    try:
        #if doc exist then merge
        if os.path.exists(pdf):
            input = PyPDF2.PdfFileReader(open(pdf,'rb'))
            merger.append((input))
        else:
            print(f"problem with file {pdf}")

    except:
            print("cant merge !! sorry")
    else:
            print(f" {pdf} Merged !!! ")

merger.write("Merged_doc.pdf")

在此，我使用了 PyPDF2.PdfFileMerger 和 PyPDF2.PdfFileReader，而不是将文件名显式转换为文件对象

【讨论】：

【解决方案4】：

问题是您只能在任何给定时间打开一定数量的文件。有办法改变这个 (http://docs.python.org/3/library/resource.html#resource.getrlimit)，但我认为你不需要这个。

您可以尝试关闭 for 循环中的文件：

input = PdfFileReader()
output = PdfFileWriter()
for file in filenames:
   f = open(file, 'rb')
   input = PdfFileReader(f)
   # Some code
   f.close()

【讨论】：

如果使用f.close()，exec output.write(outputStream)，提示IO错误。

【解决方案5】：

这也许正是它所说的，您正在打开许多文件。您可以在循环中显式使用f=file(filename) ... f.close()，或使用with 语句。以便每个打开的文件都正确关闭。

【讨论】：