线程“主”java.io.IOException 中的异常：作业失败！在 Nutch 1.7 上答案

【问题标题】：Exception in thread "main" java.io.IOException: Job failed! on Nutch 1.7线程“主”java.io.IOException 中的异常：作业失败！在 Nutch 1.7 上
【发布时间】：2013-11-02 08:02:28
【问题描述】：

Solr 和 Nutch 已经在本地设置（在不同的目录上），我希望抓取一个 URL，将其编入索引，然后将该索引集成到 Solr。

在终端上运行这个爬虫：

                $ bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

在命令行报告这个错误：

                Exception in thread "main" java.io.IOException: Job failed!
                        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357)
                        at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:123)
                        at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:81)
                        at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:65)
                        at org.apache.nutch.crawl.Crawl.run(Crawl.java:155)
                        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
                        at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)

也就是说，在我尝试集成时，我运行以下命令：

                $ bin/nutch solrindex http://localhost:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

在命令行上报这个错误：

                2013-10-23 13:23:38.347 java[15444:1203] Unable to load realm info from SCDynamicStore
                Indexer: java.io.IOException: Job failed!
                        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357)
                        at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:123)
                        at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:185)
                        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
                        at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:195)

我的环境和app版本如下：

Nutch 1.7
Solr 4.5
MAC OSX (10.8.5)
java 版本“1.6.0_51”

建议将不胜感激。

【问题讨论】：

你能把你的logs/hadoop.log文件放到pastebin吗？
1.使用 Nutch 爬行 - pastebin.com/zDhips3x 2. 对于 Solr 的索引 - pastebin.com/mMNSWuwg
刚刚注意到您使用“localhost:8983/solr”作为 solr 索引 url。您可以再试一次，但使用您的 solr 索引名称的 url 吗？例如"localhost:8983/solr/collection1"
爬取和索引成功。我无法表达足够的感谢你的@nimeshjm
别担心，乐于助人:)

标签： apache search solr nutch

【解决方案1】：

Mrkreyes 先生，您的问题的核心有答案吗？

【讨论】：

【解决方案2】：

我遇到了同样的问题，我通过在命令中包含核心解决了这个问题

找到你的核心名称

1a。去http://localhost:8983/solr

1b。在左侧导航中，有一个名为“Core Selector”的下拉菜单，点击菜单可以看到 Solr 内核列表。

1c。写下核心名称。（例如：collection1）
将核心名称放在命令中

2a。 $ bin/nutch solrindex http://localhost:8983/solr/collection1 crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

【讨论】：