【问题标题】:Hodoop + Nutch 1.15 + Solr Cloud 7.3.1 index no resultHodoop + Nutch 1.15 + Solr Cloud 7.3.1 索引无结果
【发布时间】:2018-10-06 19:35:58
【问题描述】:

他我有一个基于 Hadoop 的集群。我成功地使用了 Nutch 1.15,并抓取了一些网址。 我已经安装了 Solr 7.3.1,我喜欢使用 Cloud one,所以当我使用这个 cmd 运行 SOlr 时:

./solr-7.3.1/bin/solr start -c

我还在 nutch-site.xml 中设置了一些 solr vars:

<property>                                                                                                 
   <name>solr.server.type</name>                                                                           
   <value>cloud</value>                                                                                    
</property>                                                                                                

<property>
   <name>solr.server.url</name>                                                                       
   <value>http://localhost:8983/solr/nutch_collection/</value>                                       
</property>

<property>
   <name>solr.zookeeper.url</name>                                                        
   <value>http://localhost:9983/</value>                                                                 
</property> 

这是 solr 的索引:

 bash ./run_nutch.sh solrindex -Dsolr.server.url=http://localhost:8983/solr/nutch_collection/ crawl/crawldb -linkdb crawl/segments/*

没有错误并且工作完成,但我的收藏中没有文档...

我想念什么? 谢谢

【问题讨论】:

  • 在 nutch 1.15 中,您必须使用您的收藏 URL 配置 conf/index-writers.xml

标签: hadoop solr hdfs nutch solrcloud


【解决方案1】:

solr.server.url 现在从 nutch 1.15 版本中删除。您现在必须配置单个 XML 文件 (conf/index-writers.xml)

index-writers.xml 中的默认值设置为http://localhost:8983/solr/nutch/。因此,您要么想更改 xml 文件中的该值,要么创建名为 nutch 而不是 nutch_collection 的核心并对其进行测试。

https://apache.org/dist/nutch/1.15/CHANGES.txt

【讨论】:

    猜你喜欢
    • 2019-05-21
    • 2016-05-26
    • 2019-07-14
    • 1970-01-01
    • 1970-01-01
    • 2019-03-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多