从 PDF 中提取页眉/页脚（以编程方式）

【问题标题】：Extract header/footer from PDF (programmatically)从 PDF 中提取页眉/页脚（以编程方式）
【发布时间】：2013-10-23 00:48:06
【问题描述】：

这是否可以从 PDF 文档中提取页眉和/或页脚？

当我尝试了一些选项（包括 PDFMiner、Ruby gem pdf-extract、研究 PDF 格式规范）时，我开始怀疑页眉/页脚信息根本不可用。

（如果可能，我想从 Python 中执行此操作，但任何其他替代方案都是可行的。）

【问题讨论】：

【解决方案1】：

页面页眉和页脚不（至少不一定）位于与页面内容的其余部分分开的某些内容部分。因此，一般没有办法可靠地从 PDF 中提取页眉和页脚。

但是，可以尝试使用启发式方法来查看整个 PDF 内容并尝试猜测哪些部分是页眉和/或页脚。

如果您要分析的 PDF 相当同质，例如全部由同一出版商制作并且看起来相似，这可能是可行的。但是，您的源 PDF 越多样化，您的启发式方法可能就越复杂，结果就越不准确。

【讨论】：