我最近遇到了同样的问题,所以我研究了 PyPDF2 以了解发生了什么以及如何解决它。
注意:我假设filename 是格式正确的文件路径字符串。假设我的所有代码都一样
简短的回答
使用PdfFileMerger() 类而不是PdfFileWriter() 类。我已尝试提供以下内容以尽可能与您的内容相似:
from PyPDF2 import PdfFileMerger, PdfFileReader
[...]
merger = PdfFileMerger()
for filename in filenames:
merger.append(PdfFileReader(file(filename, 'rb')))
merger.write("document-output.pdf")
长答案
您使用PdfFileReader 和PdfFileWriter 的方式是保持每个文件打开,并最终导致Python 生成IOError 24。更具体地说,当您向PdfFileWriter 添加页面时,您正在添加对打开的PdfFileReader 中的页面的引用(因此,如果您关闭文件,则会出现记录的 IO 错误)。 Python 检测到该文件仍被引用,并且尽管重新使用文件句柄,但不会执行任何垃圾收集/自动文件关闭。它们保持打开状态,直到 PdfFileWriter 不再需要访问它们,这在您的代码中位于 output.write(outputStream)。
要解决此问题,请在内存中创建内容副本,并允许关闭文件。在我的 PyPDF2 代码冒险中,我注意到 PdfFileMerger() 类已经具有此功能,因此我没有重新发明轮子,而是选择使用它。不过,我了解到,我最初对 PdfFileMerger 的看法还不够接近,而且它仅在特定条件下创建副本。
我最初的尝试如下所示,并导致相同的 IO 问题:
merger = PdfFileMerger()
for filename in filenames:
merger.append(filename)
merger.write(output_file_path)
查看 PyPDF2 源代码,我们看到 append() 需要传递 fileobj,然后使用 merge() 函数,将其最后一页作为新文件位置传入。 merge() 使用 fileobj 执行以下操作(在使用 PdfFileReader(fileobj) 打开之前:
if type(fileobj) in (str, unicode):
fileobj = file(fileobj, 'rb')
my_file = True
elif type(fileobj) == file:
fileobj.seek(0)
filecontent = fileobj.read()
fileobj = StringIO(filecontent)
my_file = True
elif type(fileobj) == PdfFileReader:
orig_tell = fileobj.stream.tell()
fileobj.stream.seek(0)
filecontent = StringIO(fileobj.stream.read())
fileobj.stream.seek(orig_tell)
fileobj = filecontent
my_file = True
我们可以看到append() 选项确实接受一个字符串,并且当这样做时,假定它是一个文件路径并在该位置创建一个文件对象。最终结果与我们试图避免的事情完全相同。 PdfFileReader() 对象保持打开文件,直到文件最终被写入!
但是,如果我们将文件路径字符串的文件对象 或 设为 PdfFileReader(参见编辑 2) 对象路径字符串之前它被传递到append(),它会自动为我们创建一个副本作为StringIO对象,允许Python关闭文件。
我会推荐更简单的merger.append(file(filename, 'rb')),因为其他人报告说PdfFileReader 对象可能在内存中保持打开状态,即使在调用writer.close() 之后也是如此。
希望这有帮助!
编辑:我假设您使用的是PyPDF2,而不是PyPDF。如果你不是,我强烈建议切换,因为 PyPDF 不再维护,作者在开发 PyPDF2 时给予 Phaseit 官方祝福。
如果由于某种原因您无法切换到 PyPDF2(许可、系统限制等),那么您将无法使用 PdfFileMerger。在这种情况下,您可以重新使用 PyPDF2 的 merge 函数(上面提供)中的代码来创建文件的副本作为 StringIO 对象,并在代码中使用它来代替文件对象。
编辑 2: 之前使用 merger.append(PdfFileReader(file(filename, 'rb'))) 的建议根据 cmets 进行了更改(感谢 @Agostino)。