【问题标题】:solr indexing content for large files(even greater than a GB)大文件的 solr 索引内容(甚至大于 GB)
【发布时间】:2015-12-03 10:34:35
【问题描述】:

我是 Solr 索引的新手。我正在寻找各种方法来索引大于 GB 的文件(可能不止这些)。我已经尝试使用 Apache Tika 来索引文件。如果大小不超过 30MB,则效果很好。对于大于该值的文件,尽管将内存大小增加到 4096MB,但我还是出现了内存不足异常(一些博客建议使用 Apache Tika 进行大文件索引以避免内存问题。我还没有尝试过)。我想知道是否有更好的方法来索引大文件。我已阅读有关数据导入处理程序(DIH)的信息,但不确定如何将其与现有的 Solr 设置集成。有谁知道如何去DIH。我花了几天时间一起整合,但似乎没有工作。从安装 DIH 到处理一些示例文件的逐步过程会很有帮助。如果有任何其他方法可以索引大文件,也请就此提出建议。

我基本上是在尝试在我的一个门户网站中实现搜索功能,用户可以在其中访问来自各种文件服务器的文件。他应该能够检查哪些文件具有他在搜索栏中键入的内容。我每天都会运行一项工作来挑选更改/新文件并重新索引它们。

【问题讨论】:

  • 我下载了 Tika 并尝试索引一些 PDF、word 文档等。它适用于高达 30MB 的文件。但是需要太多的处理时间。

标签: java search solr lucene full-text-search


【解决方案1】:

Solr 在后台使用 Tika 处理二进制(PDF、Word)格式。因此,如果 Tika 直接失败,它很可能在 Solr 中也不起作用。我会制作一个显示问题的简单用例,并在 Tika 邮件列表中提问。一旦为 Tika 解决了问题,您就可以看到该解决方案是否/如何适合 Solr 本身。

您可能还想查看在具有超大内存的单独机器上运行的专用客户端,并以作业队列的方式将这些文件转换为 Tika 提取的版本。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2021-02-17
    • 1970-01-01
    • 1970-01-01
    • 2023-04-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多