【发布时间】:2016-01-22 04:09:53
【问题描述】:
我在 Linux 上使用 Nutch 1.9 和 Solr 4.10。我需要对一个大型网站的内容进行爬网和索引,并希望使用单独的 Solr 内核来完成这项工作。以下是作为 cronjob 一部分的 Nutch 配置...
./bin/crawl conf/core0urls crawl http://solrhost:8085/solr/core0 1
./bin/crawl conf/core1urls crawl http://solrhost:8085/solr/core1 2
我为上述设置了一个 cronjob 一分钟。有人可以在下面帮助我吗...
- 我想知道
core0的1是什么意思,core1的2是什么意思? - 我使用
conf/core0urls和conf/core1urls创建了单独的seed.txt文件。这行得通,但我想为每个核心分别提供regex-urlfilter.txt文件,Nutch 应该检测到它。请告诉我如何实现它。 - 如果在单个 Nutch 中无法实现上述操作,我是否应该为每个 Solr 内核设置单独的 Nutch 实例?
【问题讨论】:
标签: solr web-crawler nutch