如何配置 Apache Tika 和 Apache Solr 以索引和搜索 pdf 文件目录？答案

【问题标题】：How do I configure Apache Tika and Apache Solr to index and search a directory of pdf files?如何配置 Apache Tika 和 Apache Solr 以索引和搜索 pdf 文件目录？
【发布时间】：2012-02-17 10:22:33
【问题描述】：

如何让 Apache Tika 索引一个包含子目录的 PDF 和文本文件的目录并将其提交给 Apache Solr，以便我可以使用搜索引擎来搜索该目录的内容？

任何建议，在 Windows 或 Linux 上都无关紧要。我无法让它工作，因为这两个项目的文档主要是为开发人员准备的，这很好，但是我不能让他们这样做，因为文档对于非 java 来说是模糊的而且不够清晰开发者。

非常简单：如何使用 Apache Lucene 系列项目构建搜索引擎，该搜索引擎可以索引并提供对 /home/material 或 c:/material 或 /cygdrive/c/material 的搜索

提前非常感谢

【问题讨论】：

标签： pdf solr lucene full-text-search apache-tika

【解决方案1】：

您熟悉哪种编程语言？

作为一个 Python 人，我会熟悉 urllib2，一个 HTTP 客户端库和可以处理文件系统的 os 模块（列出目录中的文件，打开文件指针以在文件中发布到索尔）。同样相关的是set数据类型，可以用来比较FS和Solr索引中的文档。

所以，

学习将富文档发布到 Solr（使用 Solr 库或 HTTP 客户端库）
制作逻辑以从 Solr 和目录中检索所有文档名称
将所有丢失/更改的文档上传到 Solr。

【讨论】：

【解决方案2】：

Solr 提供ExtractingRequestHandler，它有助于索引丰富的文档。
页面上列出的示例使用 curl 向 Solr 提供数据。
一个可以遍历文件夹和子文件夹并执行 curl 命令的简单脚本可以为所有文档创建索引。
如果您使用 Solr 的任何客户端，例如 Solrj、rsolr，您可以轻松地遍历目录并执行 http url 来索引文档。

【讨论】：