【发布时间】:2020-09-25 11:00:04
【问题描述】:
我有一本索引很差的 PDF 书,只有主要章节的名称。但是,书里面,有很多标题,字幕,里面的每一章。 我正在寻找一个脚本(Bash、Perl、Python ......无论哪种脚本)都能够解析整本书并提供带有详细书籍架构的输出。比如:
真正糟糕的指数
1.简介
2.这本书是给谁的
3.这本书不适合哪一本 ...
期望的索引
1.简介
1.1.一些文字在这里
1.1.1 另一个子主题在这里
1.1.1.1 Even-another-subtopic here
(等等)
2.这本书是给谁的
2.1.一些文字在这里
2.1.1 另一个子主题在这里
2.1.1.1 这里甚至是另一个子主题
(等等)
3.这本书不适合哪一本
3.1.一些文字在这里
3.1.1 另一个-subtopic-here
3.1.1.1 Even-another-subtopic here
(等等)
我尝试了几个选项都没有成功:使用 Python:PyPDF2、PyMuPDF、ising Perl:PDF::Extract 等。
有什么建议吗,有一个完整的现实生活成功的例子吗?
提前致谢!
【问题讨论】:
-
您能否提供指向 PDF 的链接或 PDF 的摘录?另见PDF::API2
-
您应该确认 PDF 不是扫描书。如果这本书由 images 组成,那么解析的内容并不多,您只能为页面添加 TOC。但是如果书是普通的PDF书,可以使用试用软件添加TOC。
标签: python perl pdf metadata data-extraction