【发布时间】:2012-10-16 21:56:00
【问题描述】:
我想导出存储在一些 PDF 文档中的页面标签以便于解析。我知道我可以在使用qpdf 转换 PDF 文档后深入研究,但这似乎有点矫枉过正。
是否没有命令行工具可以简单地打印每个页面(或与其他元数据一起)的页面标签?我知道 PDFSpy 会导出标签,但 300 美元不是一个选项,最好是免费的解决方案。
【问题讨论】:
标签: pdf command-line page-numbering
我想导出存储在一些 PDF 文档中的页面标签以便于解析。我知道我可以在使用qpdf 转换 PDF 文档后深入研究,但这似乎有点矫枉过正。
是否没有命令行工具可以简单地打印每个页面(或与其他元数据一起)的页面标签?我知道 PDFSpy 会导出标签,但 300 美元不是一个选项,最好是免费的解决方案。
【问题讨论】:
标签: pdf command-line page-numbering
简短回答:
我不知道有任何(免费)工具可以“简单地打印”每个页面的页面标签。
此外,您将无法使用 qpdf 之类的工具或具有同等功能的工具来规避扩展压缩对象和对象流。
长答案:
没有这样的工具,因为这些是您在页面标签方面可以安全依赖的仅有的几件事。它们如下:
/Type /Catalog。/Root 后跟间接对象编号引用来显示在哪里可以找到对象。 /PageLabels 的条目。这里是相对容易的地方。因为/PageLabels 键所指的对象可能包含在压缩对象流 中。这意味着您必须扩展该对象流。
如果您真的成功地将页面标签描述为 ASCII,您会发现它不是一个易于解析的平面列表(就像 dictionary 一样):它是一个数字树。
我不会详细介绍这些复杂性,因为要描述所有可能的变化需要很长的文章。您最好直接在official ISO PDF-1.7 specification 中阅读。
但我会用 ASCII PDF 代码给你一个例子:
213 0 obj
<< /Type /Catalog
/PageLabels
<<
/Nums
[
0 << % start labeling from page no. 1
/S /r % label with lowercase roman numbers
>>
7 << % start new labeling from page no. 8
/S /D % label with standard decimal numbers
>>
11 << % start labeling page no. 12
/S /D % label with decimal numbers...
/P (ABCD-) % ...but using label prefix 'ABCD-'...
/St 3 % ...followed by '3' as the start decimal.
>>
]
>>
%%...........................
%%...more root object keys...
%%...........................
>>
endobj
上面的例子会将页码 1, 2, 3, ... (last) 像这样标记:
i
ii
iii
iv
v
vi
1
2
3
4
ABCD-3
ABCD-4
ABCD-5
ABCD-6
...and so on until last page...
如您所见,PDF 标记页面的方法(将页码映射到页面名称)完全不直观。只有学习PDF规范才能理解。
【讨论】:
pdftk.exe document.pdf dump_data output report.txt 将生成一个 txt 文件,其中不仅列出了诸如书签之类的元数据,还列出了页面标签。它看起来像这样:PageLabelNewIndex: 1 PageLabelStart: 1 PageLabelPrefix: C PageLabelNumStyle: DecimalArabicNumberals PageLabelNewIndex: 3 PageLabelStart: 1 PageLabelNumStyle: LowercaseRomanNumerals PageLabelNewIndex: 15 PageLabelStart: 1 PageLabelNumStyle: DecimalArabicNumerals 即 C1,C2,i,ii,...,xiii,1,2,... 易于解析,正是我需要的。 @Kurt,无论如何,谢谢,非常感谢!
我编写了一个基于 Poppler 的小型命令行实用程序来完成这项任务:https://github.com/HeimMatthias/pdfpagelabels
免责声明:我是 OP,并在另一个帐户下创建了原始帖子。多年来,我一直在通过 pdftk(在上面的评论中列出)成功地使用该解决方案。然而,去年是时候从头开始重新实现我们的系统了,我们遇到了许多实例,我们的实现无法解析 pdf-tk 输出。
新的命令行工具遵循doing just one thing, but doing it well 的理念,简单地打印pdf 文件的所有或选定页面的页面标签。如果有人觉得这很有用,并在这里偶然发现它,那就更好了。
【讨论】: