【发布时间】:2013-10-20 20:59:05
【问题描述】:
我遇到了一个问题,我尝试对我已经抓取过的内容进行新的抓取,但使用了一些新的 URL。
所以首先我有
urls/urls.txt -> www.somewebsite.com
然后我发出命令
bin/nutch crawl urls -dir crawl -depth 60 -threads 50
然后我更新 urls/urls.txt -> 删除 www.somewebsite.com -> 添加 www.anotherwebsite.com
我发出命令
bin/nutch inject crawl urls
bin/nutch crawl urls -dir crawl -depth 60 -threads 50
我在这里期望的是,www.anotherwebsite.com 被注入到现有的“抓取”数据库中,当再次发出抓取时,它应该只抓取我添加 www.anotherwebsite.com 的新网站(作为重新获取原来设置为 30 天)
我所经历的是,要么
1.) 没有抓取任何网站
2.) 只抓取原始网站
“有时”如果我将它放置几个小时,它就会开始工作并获取新网站并同时抓取旧网站和新网站(即使重新获取时间设置为 30 天)
它非常奇怪和不可预测的行为。
我很确定我的 regex-urlfilter 文件设置正确,并且我的 nutch-site / nutch-default 全部设置为默认值(足够接近)。
问题:
任何人都可以简单地(使用命令)解释每次抓取期间发生的情况,以及如何使用一些新的 url 更新现有的抓取数据库吗?
谁能解释(使用命令)我如何强制重新抓取爬网数据库中的“所有”网址? - 我已经发布了一个 readdb 并检查了 refetch 时间,大多数都设置为一个月,但是如果我想尽快再次 refetch 怎么办?
【问题讨论】:
-
我已经回答了我自己的问题 - 这里的大部分信息都很有用:wiki.apache.org/nutch/FAQ
标签: nutch