【发布时间】:2023-03-12 14:53:01
【问题描述】:
当我尝试在谷歌云 (dataproc) 上的 hadoop 上运行 nutch 时出现以下错误。知道为什么我会面临这个问题
user@cluster-1-m:~/apache-nutch-1.7/build$ hadoop jar /home/user/apache-nutch-1.7/runtime/deploy/apache-nutch-1.7.job org.apache.nutch.crawl.Crawl /tmp/testnutch/input/urls.txt -solr http://SOLRIP:8080/solr/ -depth 5 -topN2
16/09/11 17:57:38 INFO crawl.Crawl:爬取开始于: crawl-20160911175737 16/09/11 17:57:38 信息 crawl.Crawl: rootUrlDir = -topN2 16/09/11 17:57:38 信息抓取。抓取:线程 = 10 16/09/11 17:57:38 信息抓取。抓取:深度 = 5 16/09/11 17:57:38 信息 crawl.Crawl:solrUrl=http://SOLRIP:8080/solr/ 16/09/11 17:57:38 警告 conf.Configuration:无法在本地进行爬网/20160911175738 来自 mapredu ce.cluster.local.dir 的目录 16/09/11 17:57:38 WARN conf.配置: mapreduce.cluster.local.dir[0]=/hadoop/mapred/local 中的异常 线程“main”java.io.IOException:没有有效的本地目录 属性:mapreduce.cluster.local。目录 在 org.apache.hadoop.conf.Configuration.getLocalPath(Configuration.java:2302) 在 org.apache.hadoop.mapred.JobConf.getLocalPath(JobConf.java:569) 在 org.apache.nutch.crawl.Crawl.run(Crawl.java:123) 在 org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) 在 org.apache.nutch.crawl.Crawl.main(Crawl.java:55) 在 sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 在 sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) 在 sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 在 java.lang.reflect.Method.invoke(Method.java:498) 在 org.apache.hadoop.util.RunJar.run(RunJar.java:221) 在 org.apache.hadoop.util.RunJar.main(RunJar.java:136)
【问题讨论】:
标签: hadoop nutch gcloud google-cloud-dataproc