Hadoop 和 Solr 的集成答案

【问题标题】：Integration of Hadoop and SolrHadoop 和 Solr 的集成
【发布时间】：2015-06-23 22:46:47
【问题描述】：

根据我的研究，我可以集成hadoop和solr。我已经下载并安装了它们。但无法将它们相互融合。而且我也找不到为此目的的合适教程。

我使用 Ubuntu 14.04.02、Apache Hadoop 2.6.0 和 Solr 5.2.1。

如何在我的机器上集成 Hadoop 和 Solr？

注意：我将 hadoop 安装为单节点。我也是这个概念的初学者。

【问题讨论】：

标签： hadoop solr bigdata

【解决方案1】：

您可以通过两种方式将 Solr 与 hadoop 一起使用

基于文档
在 Hbase 中使用 lily 索引器

所以如果你想使用一个存在于 HDFS 中的文档被 SOLR 索引。您需要按照以下步骤操作：步骤 A。

solrctl --zk zookeeper_server:port/solr --solr solr-server:port/solr instancedir --generate <path of collection>/collection_name

编辑 /collection_name/conf/schema.xml 使用您在要索引的数据中出现的属性

solrctl --zk zookeeper_server:port/solr --solr solr-server:port/solr instancedir --create <collection_name> <path of collection>/collection_name
solrctl --zk zookeeper_server:port/solr --solr solr-server:port/solr  collection --create <collection_name> -s <num_of_solr_shard> -r <num_of_solr_replication>

你可以任意编号，但是

所以对于您的情况，它将是 1 和 1。

步骤 B。创建集合后，可以通过以下命令对数据进行索引

curl http://solr-server:port/solr/<collection_name>/update/csv --data-binary @<path_of_data_file_in_linux> -H 'Content-type:text/plain; charset=utf-8'

如果要索引 Hbase 数据，请按照步骤 A. 创建 Solr 集合，然后使用 Lily Indexer(key value indexer) 在 hbase 上创建索引器，之后可以在 SOLR 上以 XML 或 JSON 格式查看数据。

【讨论】：

感谢您的建议。我有两个问题，1.我找不到solrctl，这个定位在哪里2.我怎样才能知道zookeeper地址和端口
在标准安装中，solrctl 可以在 /opt/cloudera/parcels/CDH-5.2.0-1.cdh5.2.0.p0.36/bin/solrctl 找到
你可以输入 hbase zkcli ，你会看到 zk: XXXXXXXX:2181(CONNECTED) 0]

【解决方案2】：

我建议您阅读 Cloudera Search (http://www.cloudera.com/content/cloudera/en/documentation/cloudera-search/v1-latest/Cloudera-Search-User-Guide/csug_introducing.html)

这基本上是 cloudera 集成 Hadoop 和 Solr 的开源项目。

【讨论】：