【问题标题】:Extracting the actual in-text title from a PDF从 PDF 中提取实际的文本内标题
【发布时间】:2011-07-18 10:46:12
【问题描述】:

似乎有很多关于从 PDF 中提取标题(使用其元数据)的问题。但是,大多数标题似乎不存在于元数据中。我在使用 http://pybrary.net/pyPdf/pythondoc-pyPdf.pdf.html 时发现了这一点。

有没有办法真正从 pdf 中检索文本标题?我尝试导出到文本文件然后搜索,但没有一致的格式。有什么方法可以将 pdf 格式导出到文档中,然后检查字体大小 >= 14 吗?

【问题讨论】:

标签: pdf title extraction


【解决方案1】:

这是一个很好的问题。创建 PDF 的应用程序似乎对可用的元数据字段没有任何用处。

pdflatex 为例:即使设置了 \title{...}\author{...}在序言中,此信息未反映在元数据中。快速搜索后,解决方案似乎是在序言中引入一个块,该块仅由 pdflatex [1] 读取:

\pdfinfo
{
  /Title{...}
  /Author{...}
  ...
}

...然后放置在 PDF 的相关元数据字段中。奇怪的是,这是必要的。

我不会为 Word 或 Writer 等文字处理器发言。假设此类元数据字段必须由用户手动设置。

如果您的 PDF 不是由您生成,也许启发式方法是解决问题的唯一方法。 [2] 看起来它的功能与您想要的相似,但我想这取决于 PDF 的发布程度——这个工具似乎是面向科学论文的。

我希望这至少能有所帮助。

[1]http://wlug.org.nz/PdfLatexNotes [2]http://www.molspaces.com/d_cb2bib-metadata.php

【讨论】:

猜你喜欢
  • 1970-01-01
  • 2013-02-05
  • 1970-01-01
  • 1970-01-01
  • 2018-06-14
  • 1970-01-01
  • 1970-01-01
  • 2015-08-17
相关资源
最近更新 更多