【发布时间】:2017-03-22 13:38:17
【问题描述】:
所以我使用 nutch V2 来索引我的网站。 但是不再存在的页面(我正在索引 CMS,因此可以删除页面)不会从 SOLR 索引中删除。
我尝试在我的nutch-default.xml 中设置:db.update.purge.404=true,但这似乎没有任何作用。
对于 nutch V1,我可以看到命令行参数 "-deleteGone" 存在,但从文档中我只能猜测它在 V2 中已被删除。
所以我的问题是:如何配置 nutch V2 以删除不存在的 url?
【问题讨论】: