解析书籍或文章 pdf 以获取元数据答案

【问题标题】：Parsing a book or article pdf to get metadata解析书籍或文章 pdf 以获取元数据
【发布时间】：2016-07-01 15:27:48
【问题描述】：

我想从我知道它们是书籍或文章的 pdf 文件中提取元数据（标题、作者、出版日期等）。有书籍和文章的模板吗？在解析时，我怎么知道我找到了正确的东西？我可以使用哪些工具或库？

【问题讨论】：

【解决方案1】：

据我所知，现在 PDF 书籍的布局有一个标准，并且布局总是特定于特定的出版商。但我认为，如果您想自动分类以 PDF 格式存储的书籍，那么您可以考虑以下场景：

选择 2 到 5 家主要出版商（80% 来自 80/20 帕累托原则）并检查 PDF 书籍的首页是否有其特定的页眉或页脚，例如“由 PublisherName 出版”
将源 PDF 的结构与您在上一步中创建的模式进行比较。您可以提取视觉布局的结构，使用像iTextSharp 这样的低级库或像商业PDF Extractor SDK 这样提供按列/行访问的API 的高级库。
通过这些过滤器对输入的书籍进行分类，以找出该书籍是由哪个出版商制作的。
将所选出版商的预编码提取应用于该出版商使用的图书和布局。

这样，您可以尝试覆盖主要出版商，而让非主要出版商进行手动分类。另请注意，PDF 文件包含 Producer、Author、Title 字段作为标准标题，您可以使用这些字段作为有关书籍的其他信息来源。

披露：我与 ByteScout 有关，它是 PDF Extractor SDK 的制造商和免费的PDF Multitool

【讨论】：