爬虫+elasticsearch集成答案

【问题标题】：crawler + elasticsearch integration爬虫+elasticsearch集成
【发布时间】：2015-01-23 20:11:46
【问题描述】：

我不知道如何将网站和索引数据抓取到 elasticsearch。我设法在 nutch+solr 的组合中做到了这一点，因为 nutch 应该能够从 1.8 版直接将数据导出到 elasticsearch (source)，所以我尝试再次使用 nutch。然而我没有成功。尝试调用后

$ bin/nutch elasticindex

我明白了：

Error: Could not find or load main class elasticindex

我不坚持使用 nutch。我只需要最简单的方法来抓取网站并将它们索引到 elasticsearch。问题是，我找不到任何分步教程，而且我对这些技术还很陌生。

所以问题是 - 将爬虫集成到弹性搜索的最简单解决方案是什么，如果可能的话，我将不胜感激任何分步解决方案。

【问题讨论】：

【解决方案1】：

它提供了一个很好的 How To 部分，包括创建所需的索引、调度（基于 Quartz）、身份验证（支持基本和 NTLM）、元数据提取……

由于 River 插件已被弃用，可能值得一看 ManifoldCF 或 Norconex Collectors。

【讨论】：

【解决方案2】：

您可以使用 Hadoop 评估将 Common Crawl 元数据索引到 Elasticsearch 中：在处理大量数据时，Hadoop 提供了并行数据摄取的所有功能。

该过程涉及使用运行 Cascading 应用程序的 Hadoop 集群（本例中为 EMR），该应用程序将 JSON 元数据直接索引到 Elasticsearch。

级联源代码也可用于了解如何处理 Elasticsearch 中的数据摄取。

【讨论】：