【问题标题】:Optimize Lucene batch indexing优化 Lucene 批量索引
【发布时间】:2010-11-02 19:57:36
【问题描述】:

这是问题:

我正在使用 Lucene.Net,并且我正在导入大约 255k 个文档,每个文档大约有 6 个字段。我尝试了一些事情,但这个过程需要很多时间(〜1天)。我没有使用任何奇怪的分析器,只是标准分析器,我只标记了一个字段。我尝试更改最大合并文档,但什么也没有。

有人遇到过这个问题吗?

感谢和问候

【问题讨论】:

    标签: c# indexing lucene.net


    【解决方案1】:

    我会采取不同的选择,我决定发布结果,所以如果有人遇到同样的问题,可能会找到其他方法。

    Lucene.net 有一个有趣的功能允许合并两个索引,所以我的想法是将我的内容索引到几个较小的索引中,并使用合并功能将它们连接起来。

    这对我有用。我测试了这个索引 WordNet 的解决方案以对其执行查询,它完美地工作。

    【讨论】:

      【解决方案2】:

      假设您无权访问分析器(Redgate ANTS 非常好),那么:

      1. 解决您的瓶颈:是 Lucene 代码还是您的数据阅读器?注释掉 Lucene 索引代码,只留下您的数据阅读器。应该很容易判断您的问题出在哪一边。
      2. 确保您使用的是从 SVN 构建的 lucene。 subversion 的 2.9.x 版本比早期版本要好得多,尤其是在索引速度方面
      3. 使用默认的合并因子等。Lucene 在这方面似乎比我尝试的调整要好得多。
      4. 最后(也许是最重要的!)索引速度慢有关系吗?如果你每年只需要这样做一两次:我会说不要担心。 (除非这是一个学习练习或类似的)

      希望这会有所帮助,

      【讨论】:

      • 我看到了您的所有观点,并且您对所有观点都做出了公正的观察。你能告诉我更多关于 Lucene 的分析器的信息吗?我对此感兴趣
      • 我稍微编辑了我的答案,以提供我最熟悉的工具网站的链接:非常好。
      猜你喜欢
      • 2015-06-20
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-03-28
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多