谷歌云上的 Hadoop 上的 nutch - gloud dataproc答案

【问题标题】：nutch on Hadoop on google cloud- gloud dataproc谷歌云上的 Hadoop 上的 nutch - gloud dataproc
【发布时间】：2023-03-12 14:53:01
【问题描述】：

当我尝试在谷歌云 (dataproc) 上的 hadoop 上运行 nutch 时出现以下错误。知道为什么我会面临这个问题

user@cluster-1-m:~/apache-nutch-1.7/build$ hadoop jar /home/user/apache-nutch-1.7/runtime/deploy/apache-nutch-1.7.job org.apache.nutch.crawl.Crawl /tmp/testnutch/input/urls.txt -solr http://SOLRIP:8080/solr/ -depth 5 -topN2

16/09/11 17:57:38 INFO crawl.Crawl：爬取开始于： crawl-20160911175737 16/09/11 17:57:38 信息 crawl.Crawl: rootUrlDir = -topN2 16/09/11 17:57:38 信息抓取。抓取：线程 = 10 16/09/11 17:57:38 信息抓取。抓取：深度 = 5 16/09/11 17:57:38 信息 crawl.Crawl：solrUrl=http://SOLRIP:8080/solr/ 16/09/11 17:57:38 警告 conf.Configuration：无法在本地进行爬网/20160911175738 来自 mapredu ce.cluster.local.dir 的目录 16/09/11 17:57:38 WARN conf.配置： mapreduce.cluster.local.dir[0]=/hadoop/mapred/local 中的异常线程“main”java.io.IOException：没有有效的本地目录属性：mapreduce.cluster.local。目录在 org.apache.hadoop.conf.Configuration.getLocalPath(Configuration.java:2302) 在 org.apache.hadoop.mapred.JobConf.getLocalPath(JobConf.java:569) 在 org.apache.nutch.crawl.Crawl.run(Crawl.java:123) 在 org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) 在 org.apache.nutch.crawl.Crawl.main(Crawl.java:55) 在 sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 在 sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) 在 sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 在 java.lang.reflect.Method.invoke(Method.java:498) 在 org.apache.hadoop.util.RunJar.run(RunJar.java:221) 在 org.apache.hadoop.util.RunJar.main(RunJar.java:136)

【问题讨论】：

标签： hadoop nutch gcloud google-cloud-dataproc

【解决方案1】：

您收到此异常是因为您以默认情况下不在hadoop 组中的用户user 运行作业，因此驱动程序无法访问本地目录。请尝试以下操作：

sudo sudo -u mapred hadoop jar \
    /home/user/apache-nutch-1.7/runtime/deploy/apache-nutch-1.7.job \
    org.apache.nutch.crawl.Crawl /tmp/testnutch/input/urls.txt \
    -solr http://SOLRIP:8080/solr/ -depth 5 -topN2

或者，如果您想通过 Dataproc 作业 API 提交而不通过 SSH 进入集群，Dataproc 也将以足够的权限运行：

gcloud dataproc jobs submit hadoop --cluster cluster-1 \
    --jar apache-nutch-1.7.jar \
    org.apache.nutch.crawl.Crawl /tmp/testnutch/input/urls.txt \
    -solr http://SOLRIP:8080/solr/ -depth 5 -topN2

【讨论】：