【问题标题】:Parsing a book or article pdf to get metadata解析书籍或文章 pdf 以获取元数据
【发布时间】:2016-07-01 15:27:48
【问题描述】:

我想从我知道它们是书籍或文章的 pdf 文件中提取元数据(标题、作者、出版日期等)。有书籍和文章的模板吗?在解析时,我怎么知道我找到了正确的东西?我可以使用哪些工具或库?

关于我的问题有一个问题:Libraries for parsing PDF, PostScript and/or DjVu

【问题讨论】:

    标签: pdf metadata


    【解决方案1】:

    据我所知,现在 PDF 书籍的布局有一个标准,并且布局总是特定于特定的出版商。但我认为,如果您想自动分类以 PDF 格式存储的书籍,那么您可以考虑以下场景:

    • 选择 2 到 5 家主要出版商(80% 来自 80/20 帕累托原则)并检查 PDF 书籍的首页是否有其特定的页眉或页脚,例如“由 PublisherName 出版”
    • 将源 PDF 的结构与您在上一步中创建的模式进行比较。您可以提取视觉布局的结构,使用像iTextSharp 这样的低级库或像商业PDF Extractor SDK 这样提供按列/行访问的API 的高级库。
    • 通过这些过滤器对输入的书籍进行分类,以找出该书籍是由哪个出版商制作的。
    • 将所选出版商的预编码提取应用于该出版商使用的图书和布局。

    这样,您可以尝试覆盖主要出版商,而让非主要出版商进行手动分类。另请注意,PDF 文件包含 ProducerAuthorTitle 字段作为标准标题,您可以使用这些字段作为有关书籍的其他信息来源。

    披露:我与 ByteScout 有关,它是 PDF Extractor SDK 的制造商和免费的PDF Multitool

    【讨论】:

      猜你喜欢
      • 2011-01-12
      • 2016-01-24
      • 2011-02-03
      • 2015-12-15
      • 2020-05-12
      • 1970-01-01
      • 2012-09-09
      • 1970-01-01
      相关资源
      最近更新 更多