【发布时间】:2016-07-01 15:27:48
【问题描述】:
我想从我知道它们是书籍或文章的 pdf 文件中提取元数据(标题、作者、出版日期等)。有书籍和文章的模板吗?在解析时,我怎么知道我找到了正确的东西?我可以使用哪些工具或库?
关于我的问题有一个问题:Libraries for parsing PDF, PostScript and/or DjVu
【问题讨论】:
我想从我知道它们是书籍或文章的 pdf 文件中提取元数据(标题、作者、出版日期等)。有书籍和文章的模板吗?在解析时,我怎么知道我找到了正确的东西?我可以使用哪些工具或库?
关于我的问题有一个问题:Libraries for parsing PDF, PostScript and/or DjVu
【问题讨论】:
据我所知,现在 PDF 书籍的布局有一个标准,并且布局总是特定于特定的出版商。但我认为,如果您想自动分类以 PDF 格式存储的书籍,那么您可以考虑以下场景:
这样,您可以尝试覆盖主要出版商,而让非主要出版商进行手动分类。另请注意,PDF 文件包含 Producer、Author、Title 字段作为标准标题,您可以使用这些字段作为有关书籍的其他信息来源。
披露:我与 ByteScout 有关,它是 PDF Extractor SDK 的制造商和免费的PDF Multitool
【讨论】: