【问题标题】:nutch 1.15 index multiple cores with solr 7.5nutch 1.15 索引多核与 solr 7.5
【发布时间】:2019-05-21 07:50:16
【问题描述】:

我使用的是 nutch 1.15 和 solr 7.5,需要索引多个内核。我为每个核心创建了单独的 crawldb 和 linkdb,然后使用多个写入器更新了 index-writers.xml(每个 writer_id 匹配相应核心的名称)。此外,param name="url" 指向每个 solr 核心,但由于没有地方可以传递指示 writer id 或 solr 核心的参数,bin/nutch index 命令针对所有核心索引特定的 crawldb。当然,我只需要将 crawldb1 索引到 core1。

有解决这个问题的建议吗?

提前致谢。

【问题讨论】:

    标签: indexing solr nutch


    【解决方案1】:

    您可以使用JEXL exchange 将同一爬网中的文档路由到不同的索引编写器。这将允许您将文档路由到不同的 Solr 核心(每个核心一个索引写入器,具有不同的写入器 ID。

    这将允许您运行 1 个 Nutch 实例来抓取您感兴趣的所有域。我假设您还可以根据已抓取文档中存在的某些属性(URL、标题等)来路由您的文档。

    【讨论】:

    • 您好豪尔赫,感谢您的意见。我用两个交换(wiki.apache.org/nutch/Exchanges 的用例 2)尝试了这种方法,每个交换都有一个 匹配 index-writers.xml 中的 writer_id,但 bin/crawl 一直说“没有配置交换。文档将被路由到所有索引作者。”假设我们有各种 nutch 实例,这种配置会起作用吗? lucene.472066.n3.nabble.com/…
    猜你喜欢
    • 1970-01-01
    • 2019-07-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-05-26
    • 1970-01-01
    • 2023-03-27
    相关资源
    最近更新 更多