【问题标题】:nutch on Hadoop on google cloud- gloud dataproc谷歌云上的 Hadoop 上的 nutch - gloud dataproc
【发布时间】:2023-03-12 14:53:01
【问题描述】:

当我尝试在谷歌云 (dataproc) 上的 hadoop 上运行 nutch 时出现以下错误。知道为什么我会面临这个问题

user@cluster-1-m:~/apache-nutch-1.7/build$ hadoop jar /home/user/apache-nutch-1.7/runtime/deploy/apache-nutch-1.7.job org.apache.nutch.crawl.Crawl /tmp/testnutch/input/urls.txt -solr http://SOLRIP:8080/solr/ -depth 5 -topN2

16/09/11 17:57:38 INFO crawl.Crawl:爬取开始于: crawl-20160911175737 16/09/11 17:57:38 信息 crawl.Crawl: rootUrlDir = -topN2 16/09/11 17:57:38 信息抓取。抓取:线程 = 10 16/09/11 17:57:38 信息抓取。抓取:深度 = 5 16/09/11 17:57:38 信息 crawl.Crawl:solrUrl=http://SOLRIP:8080/solr/ 16/09/11 17:57:38 警告 conf.Configuration:无法在本地进行爬网/20160911175738 来自 mapredu ce.cluster.local.dir 的目录 16/09/11 17:57:38 WARN conf.配置: mapreduce.cluster.local.dir[0]=/hadoop/mapred/local 中的异常 线程“main”java.io.IOException:没有有效的本地目录 属性:mapreduce.cluster.local。目录 在 org.apache.hadoop.conf.Configuration.getLocalPath(Configuration.java:2302) 在 org.apache.hadoop.mapred.JobConf.getLocalPath(JobConf.java:569) 在 org.apache.nutch.crawl.Crawl.run(Crawl.java:123) 在 org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) 在 org.apache.nutch.crawl.Crawl.main(Crawl.java:55) 在 sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 在 sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) 在 sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 在 java.lang.reflect.Method.invoke(Method.java:498) 在 org.apache.hadoop.util.RunJar.run(RunJar.java:221) 在 org.apache.hadoop.util.RunJar.main(RunJar.java:136)

【问题讨论】:

    标签: hadoop nutch gcloud google-cloud-dataproc


    【解决方案1】:

    您收到此异常是因为您以默认情况下不在hadoop 组中的用户user 运行作业,因此驱动程序无法访问本地目录。请尝试以下操作:

    sudo sudo -u mapred hadoop jar \
        /home/user/apache-nutch-1.7/runtime/deploy/apache-nutch-1.7.job \
        org.apache.nutch.crawl.Crawl /tmp/testnutch/input/urls.txt \
        -solr http://SOLRIP:8080/solr/ -depth 5 -topN2
    

    或者,如果您想通过 Dataproc 作业 API 提交而不通过 SSH 进入集群,Dataproc 也将以足够的权限运行:

    gcloud dataproc jobs submit hadoop --cluster cluster-1 \
        --jar apache-nutch-1.7.jar \
        org.apache.nutch.crawl.Crawl /tmp/testnutch/input/urls.txt \
        -solr http://SOLRIP:8080/solr/ -depth 5 -topN2
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-12-11
      • 2019-04-22
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多