索引 PDF 文件并生成关键字摘要答案

【问题标题】：Index PDF files and generate keywords summary索引 PDF 文件并生成关键字摘要
【发布时间】：2016-08-18 20:54:31
【问题描述】：

我的本地文件系统中有大量 PDF 文件用作文档库，我想为这些文件创建索引。我想：

我的问题是：

【问题讨论】：

【解决方案1】：

鉴于第 2 点和第 3 点似乎是自定义的，我建议您使用自己的脚本，使用其中的工具解析 pdf，随意处理其输出，然后编写 HTML（可能使用其他工具）。

Perl 非常适合这一点，因为它擅长处理您需要的处理，并且还支持通过模块处理各种文件格式。

至于阅读pdf，如果您的需求不太详细，这里有一些选项

最后两个是您通过 Perl 的内置函数使用的外部工具，例如 system。

以下文本处理，用于构建摘要和设计输出，正是 Perl 等语言的用途。提到的几个任务需要几行代码。

然后写出 HTML，如果简单的话直接写出来，或者使用合适的模块。鉴于您的目的，您可能需要查看HTML::Template。例如，另请参阅this post。

完整解析 PDF 可能不可行，但如果文件不太复杂，它应该可以工作。

如果您选择关键字和建立统计数据的过程相当普遍，则可以使用集成工具进行文档管理（搜索书目管理器）。但是，我认为他们中的大多数都求助于外部工具来解析pdf，因此您可能仍然使用自己的脚本会更好。

【讨论】：