大文件的 solr 索引内容（甚至大于 GB）答案

【问题标题】：solr indexing content for large files(even greater than a GB)大文件的 solr 索引内容（甚至大于 GB）
【发布时间】：2015-12-03 10:34:35
【问题描述】：

我是 Solr 索引的新手。我正在寻找各种方法来索引大于 GB 的文件（可能不止这些）。我已经尝试使用 Apache Tika 来索引文件。如果大小不超过 30MB，则效果很好。对于大于该值的文件，尽管将内存大小增加到 4096MB，但我还是出现了内存不足异常（一些博客建议使用 Apache Tika 进行大文件索引以避免内存问题。我还没有尝试过）。我想知道是否有更好的方法来索引大文件。我已阅读有关数据导入处理程序（DIH）的信息，但不确定如何将其与现有的 Solr 设置集成。有谁知道如何去DIH。我花了几天时间一起整合，但似乎没有工作。从安装 DIH 到处理一些示例文件的逐步过程会很有帮助。如果有任何其他方法可以索引大文件，也请就此提出建议。

我基本上是在尝试在我的一个门户网站中实现搜索功能，用户可以在其中访问来自各种文件服务器的文件。他应该能够检查哪些文件具有他在搜索栏中键入的内容。我每天都会运行一项工作来挑选更改/新文件并重新索引它们。

【问题讨论】：

我下载了 Tika 并尝试索引一些 PDF、word 文档等。它适用于高达 30MB 的文件。但是需要太多的处理时间。

标签： java search solr lucene full-text-search

【解决方案1】：

Solr 在后台使用 Tika 处理二进制（PDF、Word）格式。因此，如果 Tika 直接失败，它很可能在 Solr 中也不起作用。我会制作一个显示问题的简单用例，并在 Tika 邮件列表中提问。一旦为 Tika 解决了问题，您就可以看到该解决方案是否/如何适合 Solr 本身。

您可能还想查看在具有超大内存的单独机器上运行的专用客户端，并以作业队列的方式将这些文件转换为 Tika 提取的版本。

【讨论】：