【发布时间】:2015-06-23 22:46:47
【问题描述】:
根据我的研究,我可以集成hadoop和solr。我已经下载并安装了它们。但无法将它们相互融合。而且我也找不到为此目的的合适教程。
我使用 Ubuntu 14.04.02、Apache Hadoop 2.6.0 和 Solr 5.2.1。
如何在我的机器上集成 Hadoop 和 Solr?
注意:我将 hadoop 安装为单节点。我也是这个概念的初学者。
【问题讨论】:
根据我的研究,我可以集成hadoop和solr。我已经下载并安装了它们。但无法将它们相互融合。而且我也找不到为此目的的合适教程。
我使用 Ubuntu 14.04.02、Apache Hadoop 2.6.0 和 Solr 5.2.1。
如何在我的机器上集成 Hadoop 和 Solr?
注意:我将 hadoop 安装为单节点。我也是这个概念的初学者。
【问题讨论】:
您可以通过两种方式将 Solr 与 hadoop 一起使用
所以如果你想使用一个存在于 HDFS 中的文档被 SOLR 索引。 您需要按照以下步骤操作: 步骤 A。
solrctl --zk zookeeper_server:port/solr --solr solr-server:port/solr instancedir --generate <path of collection>/collection_name
编辑 /collection_name/conf/schema.xml 使用您在要索引的数据中出现的属性
solrctl --zk zookeeper_server:port/solr --solr solr-server:port/solr instancedir --create <collection_name> <path of collection>/collection_name
solrctl --zk zookeeper_server:port/solr --solr solr-server:port/solr collection --create <collection_name> -s <num_of_solr_shard> -r <num_of_solr_replication>
你可以任意编号,但是
*
所以对于您的情况,它将是 1 和 1。
步骤 B。 创建集合后,可以通过以下命令对数据进行索引
curl http://solr-server:port/solr/<collection_name>/update/csv --data-binary @<path_of_data_file_in_linux> -H 'Content-type:text/plain; charset=utf-8'
如果要索引 Hbase 数据,请按照步骤 A. 创建 Solr 集合,然后使用 Lily Indexer(key value indexer) 在 hbase 上创建索引器,之后可以在 SOLR 上以 XML 或 JSON 格式查看数据。
【讨论】:
我建议您阅读 Cloudera Search (http://www.cloudera.com/content/cloudera/en/documentation/cloudera-search/v1-latest/Cloudera-Search-User-Guide/csug_introducing.html)
这基本上是 cloudera 集成 Hadoop 和 Solr 的开源项目。
【讨论】: