【发布时间】:2011-07-18 10:46:12
【问题描述】:
似乎有很多关于从 PDF 中提取标题(使用其元数据)的问题。但是,大多数标题似乎不存在于元数据中。我在使用 http://pybrary.net/pyPdf/pythondoc-pyPdf.pdf.html 时发现了这一点。
有没有办法真正从 pdf 中检索文本标题?我尝试导出到文本文件然后搜索,但没有一致的格式。有什么方法可以将 pdf 格式导出到文档中,然后检查字体大小 >= 14 吗?
【问题讨论】:
标签: pdf title extraction