【发布时间】:2012-02-17 10:22:33
【问题描述】:
如何让 Apache Tika 索引一个包含子目录的 PDF 和文本文件的目录并将其提交给 Apache Solr,以便我可以使用搜索引擎来搜索该目录的内容?
任何建议,在 Windows 或 Linux 上都无关紧要。 我无法让它工作,因为这两个项目的文档主要是为开发人员准备的,这很好,但是我不能让他们这样做,因为文档对于非 java 来说是模糊的而且不够清晰开发者。
非常简单:如何使用 Apache Lucene 系列项目构建搜索引擎,该搜索引擎可以索引并提供对 /home/material 或 c:/material 或 /cygdrive/c/material 的搜索
提前非常感谢
【问题讨论】:
标签: pdf solr lucene full-text-search apache-tika