【问题标题】:Extract complete index from PDF book从 PDF 书中提取完整索引
【发布时间】:2020-09-25 11:00:04
【问题描述】:

我有一本索引很差的 PDF 书,只有主要章节的名称。但是,书里面,有很多标题,字幕,里面的每一章。 我正在寻找一个脚本(Bash、Perl、Python ......无论哪种脚本)都能够解析整本书并提供带有详细书籍架构的输出。比如:

真正糟糕的指数

1.简介

2.这本书是给谁的

3.这本书不适合哪一本 ...

期望的索引

1.简介

1.1.一些文字在这里

1.1.1 另一个子主题在这里

1.1.1.1 Even-another-subtopic here

(等等)

2.这本书是给谁的

2.1.一些文字在这里

2.1.1 另一个子主题在这里

2.1.1.1 这里甚至是另一个子主题

(等等)

3.这本书不适合哪一本

3.1.一些文字在这里

3.1.1 另一个-subtopic-here

3.1.1.1 Even-another-subtopic here

(等等)

我尝试了几个选项都没有成功:使用 Python:PyPDF2、PyMuPDF、ising Perl:PDF::Extract 等。

有什么建议吗,有一个完整的现实生活成功的例子吗?

提前致谢!

【问题讨论】:

  • 您能否提供指向 PDF 的链接或 PDF 的摘录?另见PDF::API2
  • 您应该确认 PDF 不是扫描书。如果这本书由 images 组成,那么解析的内容并不多,您只能为页面添加 TOC。但是如果书是普通的PDF书,可以使用试用软件添加TOC。

标签: python perl pdf metadata data-extraction


【解决方案1】:

您可以使用以下正则表达式读取文件并提取索引:

r'1..*3.1.1.1 The last title'

您应该将最后一个标题替换为您要包含的最后一个标题

【讨论】:

  • 显然,您需要输入正确的部分编号才能将其包含在文本中。您还需要打开 re.MULTILINE 和 re.DOT 标志
猜你喜欢
  • 1970-01-01
  • 2012-04-17
  • 2013-04-18
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-01-04
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多