【问题标题】:Nutch 1.11 crawl IssueNutch 1.11 抓取问题
【发布时间】:2016-01-19 11:46:39
【问题描述】:

我已按照教程配置 nutch 以使用 Cygwin 在 Windows 7 上运行,并且我正在使用 Solr 5.4.0 来索引数据

但是 nutch 1.11 在执行爬虫时出现问题。

抓取命令 $ bin/crawl -i -D solr.server.url=http://127.0.0.1:8983/solr /urls /TestCrawl 2

错误/异常

注入种子 URL /apache-nutch-1.11/bin/nutch injection /TestCrawl/crawldb /urls 喷油器:2016-01-19 17:11:06开始 注射器: crawlDb:/TestCrawl/crawldb 注射器:urlDir:/urls Injector:将注入的 url 转换为爬取数据库条目。 注入器:java.lang.NullPointerException 在 java.lang.ProcessBuilder.start(ProcessBuilder.java:1012) 在 org.apache.hadoop.util.Shell.runCommand(Shell.java:445) 在 org.apache.hadoop.util.Shell.run(Shell.java:418) 在 org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:650) 在 org.apache.hadoop.util.Shell.execCommand(Shell.java:739) 在 org.apache.hadoop.util.Shell.execCommand(Shell.java:722) 在 org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:633) 在 org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:421) 在 org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:281) 在 org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:125) 在 org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:348) 在 org.apache.hadoop.mapreduce.Job$10.run(Job.java:1285) 在 org.apache.hadoop.mapreduce.Job$10.run(Job.java:1282) 在 java.security.AccessController.doPrivileged(本机方法) 在 javax.security.auth.Subject.doAs(Subject.java:422) 在 org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1548) 在 org.apache.hadoop.mapreduce.Job.submit(Job.java:1282) 在 org.apache.hadoop.mapred.JobClient$1.run(JobClient.java:562) 在 org.apache.hadoop.mapred.JobClient$1.run(JobClient.java:557) 在 java.security.AccessController.doPrivileged(本机方法) 在 javax.security.auth.Subject.doAs(Subject.java:422) 在 org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1548) 在 org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:557) 在 org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:548) 在 org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:833) 在 org.apache.nutch.crawl.Injector.inject(Injector.java:323) 在 org.apache.nutch.crawl.Injector.run(Injector.java:379) 在 org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) 在 org.apache.nutch.crawl.Injector.main(Injector.java:369)

Error running:
/home/apache-nutch-1.11/bin/nutch inject /TestCrawl/crawldb /urls
Failed with exit value 127.

【问题讨论】:

  • 你的问题是什么?看看this help关于询问。您应该提供更多详细信息,而不仅仅是转储一些错误和一些命令。
  • 感谢您的链接。将改写我的问题:)

标签: solr nutch


【解决方案1】:

我可以看到你的命令有多个问题,试试这个:

bin/crawl -i -Dsolr.server.url=http://127.0.0.1:8983/solr/core_name path_to_seed crawl 2

第一个问题是传递solr参数时有空格。第二个问题是 solr url 也应该包含核心名称。

【讨论】:

  • 谢谢。对不起!!我是 Nutch 和 Solr 的新手。你能告诉我核心名称是什么吗?
  • 只使用collection1
  • 说实话,这根本行不通。 -Dsolr 在版本 1.13 中被脚本拒绝(并且在 1.11 中也很确定)。此外,如果脚本以这种方式传递,错误仍然存​​在。你知道应该使用任何特定版本的 solr 吗?
【解决方案2】:

使用nutch时需要hadoop-corejar文件

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2012-12-02
    • 2012-08-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多