【问题标题】:Extract header/footer from PDF (programmatically)从 PDF 中提取页眉/页脚(以编程方式)
【发布时间】:2013-10-23 00:48:06
【问题描述】:

这是否可以从 PDF 文档中提取页眉和/或页脚?

当我尝试了一些选项(包括 PDFMiner、Ruby gem pdf-extract、研究 PDF 格式规范)时,我开始怀疑页眉/页脚信息根本不可用。

(如果可能,我想从 Python 中执行此操作,但任何其他替代方案都是可行的。)

【问题讨论】:

  • 通常页眉和页脚信息只是页面内容的一部分,因此可以像普通内容一样提取。
  • 如果不可能,请随时发布作为答案

标签: python pdf document


【解决方案1】:

页面页眉和页脚不(至少不一定)位于与页面内容的其余部分分开的某些内容部分。因此,一般没有办法可靠地从 PDF 中提取页眉和页脚

但是,可以尝试使用启发式方法来查看整个 PDF 内容并尝试猜测哪些部分是页眉和/或页脚。

如果您要分析的 PDF 相当同质,例如全部由同一出版商制作并且看起来相似,这可能是可行的。但是,您的源 PDF 越多样化,您的启发式方法可能就越复杂,结果就越不准确。

【讨论】:

    猜你喜欢
    • 2012-03-04
    • 2013-12-22
    • 1970-01-01
    • 2013-05-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-03-10
    相关资源
    最近更新 更多