【问题标题】:Nutch-Hadoop:- how can we crawl only the updates in the url going for recrawl?Nutch-Hadoop:- 我们如何只抓取 url 中的更新以进行重新抓取?
【发布时间】:2012-04-20 11:48:26
【问题描述】:

请任何人告诉我如何识别要重新抓取的 url 中的更新?当页面要重新抓取时,我只想抓取页面的更新内容,而不是已经抓取的旧内容。 提前致谢。 pragya..

【问题讨论】:

    标签: java hadoop nutch


    【解决方案1】:

    我认为您的意思是,只有在服务器端修改了内容时,您才想重新抓取 url。您希望 nutch 识别它,从而明智地决定是否获取内容。

    Nutch 有这样的概念,即维护页面的“上次修改”时间,并且在重新抓取页面时将其存储并且不投入使用。 They knew 说它会节省磁盘空间和带宽,但由于其他小东西,它没有引起人们的兴趣。 People had raised 这个问题,但我仍然没有看到 nutch 开发团队的任何活动。 Efforts were taken 进行改进,我仍然不确定当前版本使用“最后修改”字段的精确度。

    【讨论】:

      【解决方案2】:

      您不能告诉 nutch 只获取页面的更新内容而忘记其余未更改的数据。每次都会得到完整的内容。您可以巧妙地设置重新抓取频率,以便页面在更新后重新抓取。

      【讨论】:

        猜你喜欢
        • 2012-12-02
        • 1970-01-01
        • 2012-12-25
        • 1970-01-01
        • 2012-12-03
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多