【问题标题】:Sharing crawled nutch data between multiple solr indexes在多个 solr 索引之间共享爬取的 nutch 数据
【发布时间】:2014-12-19 13:48:26
【问题描述】:

我们有数以千计的 solr 索引/集合,它们共享 nutch 正在抓取的页面。

目前这些页面被多次抓取,每个包含它们的 solr 索引一次。

这些网站可以爬一次,索引间共享爬取数据?

如果网站已被爬取,则可能通过检查现有的 crawldbs 并从那里获取数据以进行解析和索引。

或者一次性爬取所有网站,然后选择性的提交爬取数据到各个索引。 (例如:每个分段一个站点,但由于分段名称是数字而不确定如何识别哪个分段属于哪个站点)

任何想法或帮助表示赞赏:)

【问题讨论】:

    标签: solr web-crawler search-engine nutch


    【解决方案1】:

    您需要编写一个新的索引器插件来执行此操作;查看 Nutch 的 SolrIndexer 以了解如何编写新的索引器。在该索引器中,您应该执行以下操作:

    1. 定义三个或四个 Solr 服务器实例,每个内核一个。
    2. 在索引器的 write 方法中,检查文档的类型并使用正确的 Solr 内核添加文档。正确地,您应该在 Nutch 有一个字段,您可以使用它来确定将文档发送到哪里。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2015-09-08
      • 2012-11-05
      • 2016-10-18
      • 2021-03-02
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多