【问题标题】:Running multiple Apache Nutch fetch map tasks on a Hadoop Cluster在 Hadoop 集群上运行多个 Apache Nutch 获取地图任务
【发布时间】:2014-09-19 05:03:34
【问题描述】:

我无法在 Hadoop YARN 上为 Nutch 1.7 运行多个 fetch Map 任务。

我正在使用 bin/crawl 脚本并进行了以下调整以触发具有多个地图任务的提取,但是我无法这样做。

  1. 在生成阶段添加了 maxNumSegments 和 numFetchers 参数。 $bin/nutch 生成 $commonOptions $CRAWL_PATH/crawldb $CRAWL_PATH/segments -maxNumSegments $numFetchers -numFetchers $numFetchers -noFilter

  2. 删除了 topN 参数并删除了 noParsing 参数,因为我希望在获取时进行解析。 $bin/nutch fetch $commonOptions -D fetcher.timelimit.mins=$timeLimitFetch $CRAWL_PATH/segments/$SEGMENT -threads $numThreads #-noParsing#

生成阶段不会生成多个片段。

因此 fetch 阶段没有创建多个 map 任务,我相信脚本是写的,即使 generate 是要生成多个段,它也不允许 fecth 去 fecth 多个段。

有人可以告诉我,他们如何在分布式 Hadoop 集群中运行脚本吗?或者是否应该使用不同版本的脚本?

谢谢。

【问题讨论】:

    标签: nutch


    【解决方案1】:

    您为此使用 Nutch 1.xx 吗?在这种情况下,Generator 类会查找名为“mapred.job.tracker”的标志并尝试查看它是否是本地的。该属性在 Hadoop2 中已被弃用,默认值设置为本地。您必须将属性的值覆盖为本地以外的其他值,并且生成器将为段生成多个分区。

    【讨论】:

      【解决方案2】:

      我最近遇到了这个问题,并认为在 Keith 的回答的基础上提供关于如何解决这个问题的更全面的解释是一个好主意。

      我已经使用 Nutch 1.10 和 Hadoop 2.4.0 对此进行了测试。

      正如 Keith 所说,Generator.java 中第 542 行的 if 块读取 mapred.job.tracker 属性并设置如果属性为local,则变量numLists1。这个变量似乎控制reduce任务的数量,对map任务的数量有影响。

      mapred-site.xml 中覆盖所述属性的值可以解决此问题:

      <property>
          <name>mapred.job.tracker</name>
          <value>distributed</value>
      </property>
      

      (或您喜欢的任何其他值,local 除外)。

      问题是,在我的情况下,这还不足以生成多个 fetch 地图任务。我还必须在 runtime/deploy/bin/crawl 脚本中更新numSlaves 参数的值。我在 Nutch 1.x 文档中没有发现任何关于这个参数的提及,所以经过一些试验和错误后我偶然发现了它。

      #############################################
      # MODIFY THE PARAMETERS BELOW TO YOUR NEEDS #
      #############################################
      
      # set the number of slaves nodes
      numSlaves=3
      
      # and the total number of available tasks
      # sets Hadoop parameter "mapred.reduce.tasks"
      numTasks=`expr $numSlaves \* 2`
      
      ...
      

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2018-12-23
        • 2012-07-09
        • 1970-01-01
        相关资源
        最近更新 更多