【问题标题】:nutch V2 (with solr) deleting documentsnutch V2 (with solr) 删除文档
【发布时间】:2017-03-22 13:38:17
【问题描述】:

所以我使用 nutch V2 来索引我的网站。 但是不再存在的页面(我正在索引 CMS,因此可以删除页面)不会从 SOLR 索引中删除。

我尝试在我的nutch-default.xml 中设置:db.update.purge.404=true,但这似乎没有任何作用。

对于 nutch V1,我可以看到命令行参数 "-deleteGone" 存在,但从文档中我只能猜测它在 V2 中已被删除。

所以我的问题是:如何配置 nutch V2 以删除不存在的 url?

【问题讨论】:

    标签: solr nutch


    【解决方案1】:

    您必须在nutch-site.xml 中设置db.update.purge.404=true,而不是在nutch-default.xml

    【讨论】:

      猜你喜欢
      • 2016-06-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-09-23
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2023-03-06
      相关资源
      最近更新 更多