Nutch 1.11 抓取问题答案

【问题标题】：Nutch 1.11 crawl IssueNutch 1.11 抓取问题
【发布时间】：2016-01-19 11:46:39
【问题描述】：

我已按照教程配置 nutch 以使用 Cygwin 在 Windows 7 上运行，并且我正在使用 Solr 5.4.0 来索引数据

但是 nutch 1.11 在执行爬虫时出现问题。

抓取命令 $ bin/crawl -i -D solr.server.url=http://127.0.0.1:8983/solr /urls /TestCrawl 2

错误/异常

注入种子 URL /apache-nutch-1.11/bin/nutch injection /TestCrawl/crawldb /urls 喷油器：2016-01-19 17:11:06开始注射器： crawlDb：/TestCrawl/crawldb 注射器：urlDir：/urls Injector：将注入的 url 转换为爬取数据库条目。注入器：java.lang.NullPointerException 在 java.lang.ProcessBuilder.start(ProcessBuilder.java:1012) 在 org.apache.hadoop.util.Shell.runCommand(Shell.java:445) 在 org.apache.hadoop.util.Shell.run（Shell.java:418）在 org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:650) 在 org.apache.hadoop.util.Shell.execCommand(Shell.java:739) 在 org.apache.hadoop.util.Shell.execCommand(Shell.java:722) 在 org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:633) 在 org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:421) 在 org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:281) 在 org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:125) 在 org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:348) 在 org.apache.hadoop.mapreduce.Job$10.run(Job.java:1285) 在 org.apache.hadoop.mapreduce.Job$10.run(Job.java:1282) 在 java.security.AccessController.doPrivileged（本机方法）在 javax.security.auth.Subject.doAs(Subject.java:422) 在 org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1548) 在 org.apache.hadoop.mapreduce.Job.submit(Job.java:1282) 在 org.apache.hadoop.mapred.JobClient$1.run(JobClient.java:562) 在 org.apache.hadoop.mapred.JobClient$1.run(JobClient.java:557) 在 java.security.AccessController.doPrivileged（本机方法）在 javax.security.auth.Subject.doAs(Subject.java:422) 在 org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1548) 在 org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:557) 在 org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:548) 在 org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:833) 在 org.apache.nutch.crawl.Injector.inject（Injector.java:323）在 org.apache.nutch.crawl.Injector.run（Injector.java:379）在 org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) 在 org.apache.nutch.crawl.Injector.main(Injector.java:369)

Error running:
/home/apache-nutch-1.11/bin/nutch inject /TestCrawl/crawldb /urls
Failed with exit value 127.

【问题讨论】：

你的问题是什么？看看this help关于询问。您应该提供更多详细信息，而不仅仅是转储一些错误和一些命令。
感谢您的链接。将改写我的问题:)

标签： solr nutch

【解决方案1】：

我可以看到你的命令有多个问题，试试这个：

bin/crawl -i -Dsolr.server.url=http://127.0.0.1:8983/solr/core_name path_to_seed crawl 2

第一个问题是传递solr参数时有空格。第二个问题是 solr url 也应该包含核心名称。

【讨论】：

谢谢。对不起！！我是 Nutch 和 Solr 的新手。你能告诉我核心名称是什么吗？
只使用collection1
说实话，这根本行不通。 -Dsolr 在版本 1.13 中被脚本拒绝（并且在 1.11 中也很确定）。此外，如果脚本以这种方式传递，错误仍然存在。你知道应该使用任何特定版本的 solr 吗？

【解决方案2】：

使用nutch时需要hadoop-corejar文件

与 nutch 1.11 兼容的 hadoop-core jar 为 0.20.0
请从此链接下载jar： http://www.java2s.com/Code/Jar/h/Downloadhadoop0200corejar.htm
将该 jar 粘贴到 "C:\cygwin64\home\apache-nutch-1.11\lib" 文件夹中，它将运行成功了。

【讨论】：