Nutch-Hadoop：- 我们如何只抓取 url 中的更新以进行重新抓取？答案

【问题标题】：Nutch-Hadoop:- how can we crawl only the updates in the url going for recrawl?Nutch-Hadoop：- 我们如何只抓取 url 中的更新以进行重新抓取？
【发布时间】：2012-04-20 11:48:26
【问题描述】：

请任何人告诉我如何识别要重新抓取的 url 中的更新？当页面要重新抓取时，我只想抓取页面的更新内容，而不是已经抓取的旧内容。提前致谢。 pragya..

【问题讨论】：

标签： java hadoop nutch

【解决方案1】：

我认为您的意思是，只有在服务器端修改了内容时，您才想重新抓取 url。您希望 nutch 识别它，从而明智地决定是否获取内容。

Nutch 有这样的概念，即维护页面的“上次修改”时间，并且在重新抓取页面时将其存储并且不投入使用。 They knew 说它会节省磁盘空间和带宽，但由于其他小东西，它没有引起人们的兴趣。 People had raised 这个问题，但我仍然没有看到 nutch 开发团队的任何活动。 Efforts were taken 进行改进，我仍然不确定当前版本使用“最后修改”字段的精确度。

【讨论】：

【解决方案2】：

您不能告诉 nutch 只获取页面的更新内容而忘记其余未更改的数据。每次都会得到完整的内容。您可以巧妙地设置重新抓取频率，以便页面在更新后重新抓取。

【讨论】：