【发布时间】:2013-11-02 08:02:28
【问题描述】:
Solr 和 Nutch 已经在本地设置(在不同的目录上),我希望抓取一个 URL,将其编入索引,然后将该索引集成到 Solr。
在终端上运行这个爬虫:
$ bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
在命令行报告这个错误:
Exception in thread "main" java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357)
at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:123)
at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:81)
at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:65)
at org.apache.nutch.crawl.Crawl.run(Crawl.java:155)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)
也就是说,在我尝试集成时,我运行以下命令:
$ bin/nutch solrindex http://localhost:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*
在命令行上报这个错误:
2013-10-23 13:23:38.347 java[15444:1203] Unable to load realm info from SCDynamicStore
Indexer: java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357)
at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:123)
at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:185)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:195)
我的环境和app版本如下:
- Nutch 1.7
- Solr 4.5
- MAC OSX (10.8.5)
- java 版本“1.6.0_51”
建议将不胜感激。
【问题讨论】:
-
你能把你的logs/hadoop.log文件放到pastebin吗?
-
1.使用 Nutch 爬行 - pastebin.com/zDhips3x 2. 对于 Solr 的索引 - pastebin.com/mMNSWuwg
-
刚刚注意到您使用“localhost:8983/solr”作为 solr 索引 url。您可以再试一次,但使用您的 solr 索引名称的 url 吗?例如"localhost:8983/solr/collection1"
-
爬取和索引成功。我无法表达足够的感谢你的@nimeshjm
-
别担心,乐于助人:)