【问题标题】:How do I configure Apache Tika and Apache Solr to index and search a directory of pdf files?如何配置 Apache Tika 和 Apache Solr 以索引和搜索 pdf 文件目录?
【发布时间】:2012-02-17 10:22:33
【问题描述】:

如何让 Apache Tika 索引一个包含子目录的 PDF 和文本文件的目录并将其提交给 Apache Solr,以便我可以使用搜索引擎来搜索该目录的内容?

任何建议,在 Windows 或 Linux 上都无关紧要。 我无法让它工作,因为这两个项目的文档主要是为开发人员准备的,这很好,但是我不能让他们这样做,因为文档对于非 java 来说是模糊的而且不够清晰开发者。

非常简单:如何使用 Apache Lucene 系列项目构建搜索引擎,该搜索引擎可以索引并提供对 /home/material 或 c:/material 或 /cygdrive/c/material 的搜索

提前非常感谢

【问题讨论】:

    标签: pdf solr lucene full-text-search apache-tika


    【解决方案1】:

    您熟悉哪种编程语言?

    作为一个 Python 人,我会熟悉 urllib2,一个 HTTP 客户端库和可以处理文件系统的 os 模块(列出目录中的文件,打开文件指针以在文件中发布到索尔)。同样相关的是set数据类型,可以用来比较FS和Solr索引中的文档。

    所以,

    1. 学习将富文档发布到 Solr(使用 Solr 库或 HTTP 客户端库)
    2. 制作逻辑以从 Solr 和目录中检索所有文档名称
    3. 将所有丢失/更改的文档上传到 Solr。

    【讨论】:

      【解决方案2】:

      Solr 提供ExtractingRequestHandler,它有助于索引丰富的文档。
      页面上列出的示例使用 curl 向 Solr 提供数据。
      一个可以遍历文件夹和子文件夹并执行 curl 命令的简单脚本可以为所有文档创建索引。
      如果您使用 Solr 的任何客户端,例如 Solrj、rsolr,您可以轻松地遍历目录并执行 http url 来索引文档。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2012-04-13
        • 1970-01-01
        • 1970-01-01
        • 2015-07-16
        • 2017-09-01
        • 1970-01-01
        相关资源
        最近更新 更多