【问题标题】:Index PDF files and generate keywords summary索引 PDF 文件并生成关键字摘要
【发布时间】:2016-08-18 20:54:31
【问题描述】:

我的本​​地文件系统中有大量 PDF 文件用作文档库,我想为这些文件创建索引。 我想:

  1. 解析 PDF 文件的内容以获取关键字。
  2. 选择最相关的关键字进行总结。
  3. 为某些关键字创建静态 HTML 页面,其中的条目链接到相应的文件。

我的问题是:

  • 是否有现成的工具可以完成整个工作?
  • 解析 PDF 文件内容、过滤(按字数大小)和计算字数最合适的工具是什么?
  • 我考虑使用Perlswish-epdfgrep 来制作脚本。您知道其他可能有用的工具吗?

【问题讨论】:

标签: perl pdf indexing swish


【解决方案1】:

鉴于第 2 点和第 3 点似乎是自定义的,我建议您使用自己的脚本,使用其中的工具解析 pdf,随意处理其输出,然后编写 HTML(可能使用其他工具)。

Perl 非常适合这一点,因为它擅长处理您需要的处理,并且还支持通过模块处理各种文件格式。

至于阅读pdf,如果您的需求不太详细,这里有一些选项

最后两个是您通过 Perl 的内置函数使用的外部工具,例如 system

以下文本处理,用于构建摘要和设计输出,正是 Perl 等语言的用途。提到的几个任务需要几行代码。

然后写出 HTML,如果简单的话直接写出来,或者使用合适的模块。鉴于您的目的,您可能需要查看HTML::Template。例如,另请参阅this post

完整解析 PDF 可能不可行,但如果文件不太复杂,它应该可以工作。

如果您选择关键字和建立统计数据的过程相当普遍,则可以使用集成工具进行文档管理(搜索书目管理器)。但是,我认为他们中的大多数都求助于外部工具来解析pdf,因此您可能仍然使用自己的脚本会更好。

【讨论】:

  • @JeanJouX 让我知道更多细节是否有用。例如,我可以发布(几行)示例代码,这些代码将生成单词列表、过滤和计数。
猜你喜欢
  • 2011-10-12
  • 2010-10-25
  • 1970-01-01
  • 2015-10-04
  • 2011-07-11
  • 2011-03-11
  • 2020-08-22
  • 1970-01-01
  • 2016-03-14
相关资源
最近更新 更多