从 PDF 中提取实际的文本内标题答案

【问题标题】：Extracting the actual in-text title from a PDF从 PDF 中提取实际的文本内标题
【发布时间】：2011-07-18 10:46:12
【问题描述】：

似乎有很多关于从 PDF 中提取标题（使用其元数据）的问题。但是，大多数标题似乎不存在于元数据中。我在使用 http://pybrary.net/pyPdf/pythondoc-pyPdf.pdf.html 时发现了这一点。

有没有办法真正从 pdf 中检索文本标题？我尝试导出到文本文件然后搜索，但没有一致的格式。有什么方法可以将 pdf 格式导出到文档中，然后检查字体大小 >= 14 吗？

【问题讨论】：

【解决方案1】：

这是一个很好的问题。创建 PDF 的应用程序似乎对可用的元数据字段没有任何用处。

以 pdflatex 为例：即使设置了 \title{...} 和 \author{...}在序言中，此信息未反映在元数据中。快速搜索后，解决方案似乎是在序言中引入一个块，该块仅由 pdflatex [1] 读取：

\pdfinfo
{
  /Title{...}
  /Author{...}
  ...
}

...然后放置在 PDF 的相关元数据字段中。奇怪的是，这是必要的。

我不会为 Word 或 Writer 等文字处理器发言。假设此类元数据字段必须由用户手动设置。

如果您的 PDF 不是由您生成，也许启发式方法是解决问题的唯一方法。 [2] 看起来它的功能与您想要的相似，但我想这取决于 PDF 的发布程度——这个工具似乎是面向科学论文的。

我希望这至少能有所帮助。

【讨论】：

继续探索，我发现了另一个有点相关的 SO 问题 (stackoverflow.com/questions/1813427/…)，它链接到一个名为 pdfssa4met (code.google.com/p/pdfssa4met) 的工具，这似乎很有希望。