【发布时间】:2016-08-18 20:54:31
【问题描述】:
我的本地文件系统中有大量 PDF 文件用作文档库,我想为这些文件创建索引。 我想:
- 解析 PDF 文件的内容以获取关键字。
- 选择最相关的关键字进行总结。
- 为某些关键字创建静态 HTML 页面,其中的条目链接到相应的文件。
我的问题是:
- 是否有现成的工具可以完成整个工作?
- 解析 PDF 文件内容、过滤(按字数大小)和计算字数最合适的工具是什么?
- 我考虑使用
Perl、swish-e、pdfgrep来制作脚本。您知道其他可能有用的工具吗?
【问题讨论】:
-
看看recoll