【问题标题】:crawler + elasticsearch integration爬虫+elasticsearch集成
【发布时间】:2015-01-23 20:11:46
【问题描述】:

我不知道如何将网站和索引数据抓取到 elasticsearch。我设法在 nutch+solr 的组合中做到了这一点,因为 nutch 应该能够从 1.8 版直接将数据导出到 elasticsearch (source),所以我尝试再次使用 nutch。然而我没有成功。尝试调用后

$ bin/nutch elasticindex

我明白了:

Error: Could not find or load main class elasticindex

我不坚持使用 nutch。我只需要最简单的方法来抓取网站并将它们索引到 elasticsearch。问题是,我找不到任何分步教程,而且我对这些技术还很陌生。

所以问题是 - 将爬虫集成到弹性搜索的最简单解决方案是什么,如果可能的话,我将不胜感激任何分步解决方案。

【问题讨论】:

  • 你用的是什么弹性索引?它不存在

标签: elasticsearch web-crawler search-engine nutch


【解决方案1】:

您看过 River Web 插件吗? https://github.com/codelibs/elasticsearch-river-web

它提供了一个很好的 How To 部分,包括创建所需的索引、调度(基于 Quartz)、身份验证(支持基本和 NTLM)、元数据提取……

也许值得看看 elasticsearch river 插件概述:http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/modules-plugins.html#river

由于 River 插件已被弃用,可能值得一看 ManifoldCFNorconex Collectors

【讨论】:

  • 但您可以独立使用 River Web
【解决方案2】:

您可以使用 Hadoop 评估将 Common Crawl 元数据索引到 Elasticsearch 中: 在处理大量数据时,Hadoop 提供了并行数据摄取的所有功能。

这是一个使用 Cascading 直接索引到 Elasticsearch 的示例: http://blogs.aws.amazon.com/bigdata/post/TxC0CXZ3RPPK7O/Indexing-Common-Crawl-Metadata-on-Amazon-EMR-Using-Cascading-and-Elasticsearch

该过程涉及使用运行 Cascading 应用程序的 Hadoop 集群(本例中为 EMR),该应用程序将 JSON 元数据直接索引到 Elasticsearch。

级联源代码也可用于了解如何处理 Elasticsearch 中的数据摄取。

【讨论】:

  • 虽然这在理论上可以回答问题,it would be preferable 在这里包含答案的基本部分,并提供链接以供参考。
猜你喜欢
  • 1970-01-01
  • 2019-11-07
  • 1970-01-01
  • 2019-06-24
  • 1970-01-01
  • 2012-08-08
  • 1970-01-01
  • 2018-07-11
  • 1970-01-01
相关资源
最近更新 更多