【发布时间】:2015-01-23 20:11:46
【问题描述】:
我不知道如何将网站和索引数据抓取到 elasticsearch。我设法在 nutch+solr 的组合中做到了这一点,因为 nutch 应该能够从 1.8 版直接将数据导出到 elasticsearch (source),所以我尝试再次使用 nutch。然而我没有成功。尝试调用后
$ bin/nutch elasticindex
我明白了:
Error: Could not find or load main class elasticindex
我不坚持使用 nutch。我只需要最简单的方法来抓取网站并将它们索引到 elasticsearch。问题是,我找不到任何分步教程,而且我对这些技术还很陌生。
所以问题是 - 将爬虫集成到弹性搜索的最简单解决方案是什么,如果可能的话,我将不胜感激任何分步解决方案。
【问题讨论】:
-
你用的是什么弹性索引?它不存在
标签: elasticsearch web-crawler search-engine nutch