Nutch 抓取并忽略新的网址答案

【问题标题】：Nutch Crawling and ignoring new urlsNutch 抓取并忽略新的网址
【发布时间】：2013-10-20 20:59:05
【问题描述】：

我遇到了一个问题，我尝试对我已经抓取过的内容进行新的抓取，但使用了一些新的 URL。

所以首先我有

urls/urls.txt -> www.somewebsite.com

然后我发出命令

bin/nutch crawl urls -dir crawl -depth 60 -threads 50

然后我更新 urls/urls.txt -> 删除 www.somewebsite.com -> 添加 www.anotherwebsite.com

我发出命令

bin/nutch inject crawl urls

bin/nutch crawl urls -dir crawl -depth 60 -threads 50

我在这里期望的是，www.anotherwebsite.com 被注入到现有的“抓取”数据库中，当再次发出抓取时，它应该只抓取我添加 www.anotherwebsite.com 的新网站（作为重新获取原来设置为 30 天）

我所经历的是，要么

1.) 没有抓取任何网站

2.) 只抓取原始网站

“有时”如果我将它放置几个小时，它就会开始工作并获取新网站并同时抓取旧网站和新网站（即使重新获取时间设置为 30 天）

它非常奇怪和不可预测的行为。

我很确定我的 regex-urlfilter 文件设置正确，并且我的 nutch-site / nutch-default 全部设置为默认值（足够接近）。

问题：

任何人都可以简单地（使用命令）解释每次抓取期间发生的情况，以及如何使用一些新的 url 更新现有的抓取数据库吗？

谁能解释（使用命令）我如何强制重新抓取爬网数据库中的“所有”网址？ - 我已经发布了一个 readdb 并检查了 refetch 时间，大多数都设置为一个月，但是如果我想尽快再次 refetch 怎么办？

【问题讨论】：

标签： nutch

【解决方案1】：

文章Here对爬取过程进行了足够深入的解释

【讨论】：