【发布时间】:2015-12-03 10:34:35
【问题描述】:
我是 Solr 索引的新手。我正在寻找各种方法来索引大于 GB 的文件(可能不止这些)。我已经尝试使用 Apache Tika 来索引文件。如果大小不超过 30MB,则效果很好。对于大于该值的文件,尽管将内存大小增加到 4096MB,但我还是出现了内存不足异常(一些博客建议使用 Apache Tika 进行大文件索引以避免内存问题。我还没有尝试过)。我想知道是否有更好的方法来索引大文件。我已阅读有关数据导入处理程序(DIH)的信息,但不确定如何将其与现有的 Solr 设置集成。有谁知道如何去DIH。我花了几天时间一起整合,但似乎没有工作。从安装 DIH 到处理一些示例文件的逐步过程会很有帮助。如果有任何其他方法可以索引大文件,也请就此提出建议。
我基本上是在尝试在我的一个门户网站中实现搜索功能,用户可以在其中访问来自各种文件服务器的文件。他应该能够检查哪些文件具有他在搜索栏中键入的内容。我每天都会运行一项工作来挑选更改/新文件并重新索引它们。
【问题讨论】:
-
我下载了 Tika 并尝试索引一些 PDF、word 文档等。它适用于高达 30MB 的文件。但是需要太多的处理时间。
标签: java search solr lucene full-text-search