【发布时间】:2018-10-06 19:35:58
【问题描述】:
他我有一个基于 Hadoop 的集群。我成功地使用了 Nutch 1.15,并抓取了一些网址。 我已经安装了 Solr 7.3.1,我喜欢使用 Cloud one,所以当我使用这个 cmd 运行 SOlr 时:
./solr-7.3.1/bin/solr start -c
我还在 nutch-site.xml 中设置了一些 solr vars:
<property>
<name>solr.server.type</name>
<value>cloud</value>
</property>
<property>
<name>solr.server.url</name>
<value>http://localhost:8983/solr/nutch_collection/</value>
</property>
<property>
<name>solr.zookeeper.url</name>
<value>http://localhost:9983/</value>
</property>
这是 solr 的索引:
bash ./run_nutch.sh solrindex -Dsolr.server.url=http://localhost:8983/solr/nutch_collection/ crawl/crawldb -linkdb crawl/segments/*
没有错误并且工作完成,但我的收藏中没有文档...
我想念什么? 谢谢
【问题讨论】:
-
在 nutch 1.15 中,您必须使用您的收藏 URL 配置 conf/index-writers.xml
标签: hadoop solr hdfs nutch solrcloud