【发布时间】:2020-08-27 14:49:30
【问题描述】:
我正在尝试自动合并多个 PDF 文件,并且有两个要求:a) 现有书签和 b) 需要保留页面标签(自定义页码)。
默认情况下,PyPDF2 和 pdftk 会在合并时保留书签,但 pdfrw 不会。 在 PyPDF2、pdftk 或 pdfrw 中始终不保留页面标签。
我猜测,经过大量搜索后,没有直接的方法可以做我想做的事。如果我错了,那么我希望有人能指出这个简单的解决方案。但是,如果没有简单的解决方案,任何关于如何在 python 中实现这一点的提示将不胜感激!
一些示例代码:
1) 使用 PyPDF2
from PyPDF2 import PdfFileWriter, PdfFileMerger, PdfFileReader
tmp1 = PdfFileReader('file1.pdf', 'rb')
tmp2 = PdfFileReader('file2.pdf', 'rb')
#extracting pagelabels is easy
pl1 = tmp1.trailer['/Root']['/PageLabels']
pl2 = tmp2.trailer['/Root']['/PageLabels']
#but PdfFileWriter or PdfFileMerger does not support writing from what I understand
所以我不知道如何从这里开始
2) 使用 pdfrw(有更多承诺)
from pdfrw import PdfReader, PdfWriter
writer = PdfWriter()
#read 1st file
tmp1 = PdfReader('file1')
#add the pages
writer.addpages(tmp1.pages)
#copy bookmarks to writer
writer.trailer.Root.Outlines = tmp1.Root.Outlines
#copy pagelabels to writer
writer.trailer.Root.PageLabels = tmp1.Root.PageLabels
#read second file
tmp2 = PdfReader('file2')
#append pages
writer.addpages(tmp2.pages)
# so far so good
第二个文件中书签的页码在添加之前需要偏移,但是在阅读大纲时,我几乎总是得到 (IndirectObject, XXX) 而不是页码。不清楚如何使用 pdfrw 获取每个标签和书签的页码。所以,我又卡住了
zp
【问题讨论】:
-
一直想要解决这个问题!此查询中的一些线索:stackoverflow.com/questions/61794994/…