【问题标题】:Apache Nutch: crawl only new pages for semantics analysisApache Nutch:只抓取新页面进行语义分析
【发布时间】:2014-06-04 10:07:59
【问题描述】:

我计划以这样的方式调整 Nutch 2.2.X,在最初爬取网站列表后,我每天启动爬虫并获取 HTML 或仅在当天出现在这些网站上的新页面的纯文本。站点数量:数百个。

请注意,我对更新不感兴趣,只对新页面感兴趣。此外,我只需要从某个日期开始的新页面。我们假设它是“初始爬取”的日期。

阅读文档和搜索网络我得到以下问题在其他任何地方都找不到:

  1. 我应该更好地为 Nutch 使用什么后端来完成我的任务?我只需要一次页面的文本,然后我再也不会返回它。 MySQL 似乎不是一个选项,因为 gora 不再支持它。我尝试使用 HBase,但似乎我必须回滚到 Nutch 2.1.x 才能使其正常工作。你有什么想法?如何最大限度地减少磁盘空间和其他资源的使用?

  2. 我可以不使用 Solr 等索引引擎来执行我的任务吗?不确定我是否需要存储大型全文索引。 Nutch >2.2 可以在没有 Solr 的情况下启动吗?它是否需要特定的选项来启动这种方式?教程没有清楚地解释这个问题:每个人都需要 Solr,除了我。

  3. 如果我想将一个网站添加到抓取列表中,我应该如何更好地执行它?假设我已经抓取了一个网站列表并想要将一个网站添加到列表以从现在开始对其进行监视。所以我需要爬取新站点的跳过页面内容以将其添加到 WebDB,然后像往常一样运行每日爬取。对于 Nutch 1.x,可以执行单独的爬网然后合并它们。 Nutch 2.x 会是什么样子?

  4. 是否可以在没有自定义插件的情况下执行此任务,是否可以使用 Nutch 执行?可能,我可能会编写一个自定义插件,以某种方式检测页面是否已编入索引,或者它是新的,我们需要将内容放入XML,或者数据库等。我应该写插件,还是有办法用更少的血来解决任务?如果没有它就无法生存,那么插件的算法会是什么样子?

附:有很多Nutch问题/答案/教程,老实说我在网上搜索了2周,但没有找到上述问题的答案。

【问题讨论】:

  • 我正在尝试解决类似的问题。如果您遇到任何解决方案,请更新

标签: nutch web-crawler


【解决方案1】:

我也没有使用 solr。我刚刚检查了这个文档:https://today.java.net/pub/a/today/2006/01/10/introduction-to-nutch-1.html

似乎有命令提示符可以显示使用 WebDB 获取的数据。我是 Nutch 的新手,但我只是遵循这个文档。看看吧。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-09-11
    • 1970-01-01
    • 2012-08-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多