【发布时间】:2016-01-19 11:46:39
【问题描述】:
我已按照教程配置 nutch 以使用 Cygwin 在 Windows 7 上运行,并且我正在使用 Solr 5.4.0 来索引数据
但是 nutch 1.11 在执行爬虫时出现问题。
抓取命令 $ bin/crawl -i -D solr.server.url=http://127.0.0.1:8983/solr /urls /TestCrawl 2
错误/异常
注入种子 URL /apache-nutch-1.11/bin/nutch injection /TestCrawl/crawldb /urls 喷油器:2016-01-19 17:11:06开始 注射器: crawlDb:/TestCrawl/crawldb 注射器:urlDir:/urls Injector:将注入的 url 转换为爬取数据库条目。 注入器:java.lang.NullPointerException 在 java.lang.ProcessBuilder.start(ProcessBuilder.java:1012) 在 org.apache.hadoop.util.Shell.runCommand(Shell.java:445) 在 org.apache.hadoop.util.Shell.run(Shell.java:418) 在 org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:650) 在 org.apache.hadoop.util.Shell.execCommand(Shell.java:739) 在 org.apache.hadoop.util.Shell.execCommand(Shell.java:722) 在 org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:633) 在 org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:421) 在 org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:281) 在 org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:125) 在 org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:348) 在 org.apache.hadoop.mapreduce.Job$10.run(Job.java:1285) 在 org.apache.hadoop.mapreduce.Job$10.run(Job.java:1282) 在 java.security.AccessController.doPrivileged(本机方法) 在 javax.security.auth.Subject.doAs(Subject.java:422) 在 org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1548) 在 org.apache.hadoop.mapreduce.Job.submit(Job.java:1282) 在 org.apache.hadoop.mapred.JobClient$1.run(JobClient.java:562) 在 org.apache.hadoop.mapred.JobClient$1.run(JobClient.java:557) 在 java.security.AccessController.doPrivileged(本机方法) 在 javax.security.auth.Subject.doAs(Subject.java:422) 在 org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1548) 在 org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:557) 在 org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:548) 在 org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:833) 在 org.apache.nutch.crawl.Injector.inject(Injector.java:323) 在 org.apache.nutch.crawl.Injector.run(Injector.java:379) 在 org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) 在 org.apache.nutch.crawl.Injector.main(Injector.java:369)
Error running:
/home/apache-nutch-1.11/bin/nutch inject /TestCrawl/crawldb /urls
Failed with exit value 127.
【问题讨论】:
-
你的问题是什么?看看this help关于询问。您应该提供更多详细信息,而不仅仅是转储一些错误和一些命令。
-
感谢您的链接。将改写我的问题:)