从 PDF 书中提取完整索引答案

【问题标题】：Extract complete index from PDF book从 PDF 书中提取完整索引
【发布时间】：2020-09-25 11:00:04
【问题描述】：

我有一本索引很差的 PDF 书，只有主要章节的名称。但是，书里面，有很多标题，字幕，里面的每一章。我正在寻找一个脚本（Bash、Perl、Python ......无论哪种脚本）都能够解析整本书并提供带有详细书籍架构的输出。比如：

真正糟糕的指数

1.简介

2.这本书是给谁的

3.这本书不适合哪一本 ...

期望的索引

1.简介

1.1.一些文字在这里

1.1.1 另一个子主题在这里

1.1.1.1 Even-another-subtopic here

（等等）

2.这本书是给谁的

2.1.一些文字在这里

2.1.1 另一个子主题在这里

2.1.1.1 这里甚至是另一个子主题

（等等）

3.这本书不适合哪一本

3.1.一些文字在这里

3.1.1 另一个-subtopic-here

3.1.1.1 Even-another-subtopic here

（等等）

我尝试了几个选项都没有成功：使用 Python：PyPDF2、PyMuPDF、ising Perl：PDF::Extract 等。

有什么建议吗，有一个完整的现实生活成功的例子吗？

提前致谢！

【问题讨论】：

您能否提供指向 PDF 的链接或 PDF 的摘录？另见PDF::API2
您应该确认 PDF 不是扫描书。如果这本书由 images 组成，那么解析的内容并不多，您只能为页面添加 TOC。但是如果书是普通的PDF书，可以使用试用软件添加TOC。

【解决方案1】：

您可以使用以下正则表达式读取文件并提取索引：

r'1..*3.1.1.1 The last title'

您应该将最后一个标题替换为您要包含的最后一个标题

【讨论】：