【发布时间】:2014-09-19 05:03:34
【问题描述】:
我无法在 Hadoop YARN 上为 Nutch 1.7 运行多个 fetch Map 任务。
我正在使用 bin/crawl 脚本并进行了以下调整以触发具有多个地图任务的提取,但是我无法这样做。
在生成阶段添加了 maxNumSegments 和 numFetchers 参数。 $bin/nutch 生成 $commonOptions $CRAWL_PATH/crawldb $CRAWL_PATH/segments -maxNumSegments $numFetchers -numFetchers $numFetchers -noFilter
删除了 topN 参数并删除了 noParsing 参数,因为我希望在获取时进行解析。 $bin/nutch fetch $commonOptions -D fetcher.timelimit.mins=$timeLimitFetch $CRAWL_PATH/segments/$SEGMENT -threads $numThreads #-noParsing#
生成阶段不会生成多个片段。
因此 fetch 阶段没有创建多个 map 任务,我相信脚本是写的,即使 generate 是要生成多个段,它也不允许 fecth 去 fecth 多个段。
有人可以告诉我,他们如何在分布式 Hadoop 集群中运行脚本吗?或者是否应该使用不同版本的脚本?
谢谢。
【问题讨论】:
标签: nutch