【问题标题】:Integration of Hadoop and SolrHadoop 和 Solr 的集成
【发布时间】:2015-06-23 22:46:47
【问题描述】:

根据我的研究,我可以集成hadoop和solr。我已经下载并安装了它们。但无法将它们相互融合。而且我也找不到为此目的的合适教程。

我使用 Ubuntu 14.04.02、Apache Hadoop 2.6.0 和 Solr 5.2.1。

如何在我的机器上集成 Hadoop 和 Solr?

注意:我将 hadoop 安装为单节点。我也是这个概念的初学者。

【问题讨论】:

    标签: hadoop solr bigdata


    【解决方案1】:

    您可以通过两种方式将 Solr 与 hadoop 一起使用

    1. 基于文档
    2. 在 Hbase 中使用 lily 索引器

    所以如果你想使用一个存在于 HDFS 中的文档被 SOLR 索引。 您需要按照以下步骤操作: 步骤 A。

    solrctl --zk zookeeper_server:port/solr --solr solr-server:port/solr instancedir --generate <path of collection>/collection_name
    

    编辑 /collection_name/conf/schema.xml 使用您在要索引的数据中出现的属性

    solrctl --zk zookeeper_server:port/solr --solr solr-server:port/solr instancedir --create <collection_name> <path of collection>/collection_name
    solrctl --zk zookeeper_server:port/solr --solr solr-server:port/solr  collection --create <collection_name> -s <num_of_solr_shard> -r <num_of_solr_replication>
    

    你可以任意编号,但是

    *

    所以对于您的情况,它将是 1 和 1。

    步骤 B。 创建集合后,可以通过以下命令对数据进行索引

    curl http://solr-server:port/solr/<collection_name>/update/csv --data-binary @<path_of_data_file_in_linux> -H 'Content-type:text/plain; charset=utf-8'
    

    如果要索引 Hbase 数据,请按照步骤 A. 创建 Solr 集合,然后使用 Lily Indexer(key value indexer) 在 hbase 上创建索引器,之后可以在 SOLR 上以 XML 或 JSON 格式查看数据。

    【讨论】:

    • 感谢您的建议。我有两个问题,1.我找不到solrctl,这个定位在哪里2.我怎样才能知道zookeeper地址和端口
    • 在标准安装中,solrctl 可以在 /opt/cloudera/parcels/CDH-5.2.0-1.cdh5.2.0.p0.36/bin/solrctl 找到
    • 你可以输入 hbase zkcli ,你会看到 zk: XXXXXXXX:2181(CONNECTED) 0]
    【解决方案2】:

    我建议您阅读 Cloudera Search (http://www.cloudera.com/content/cloudera/en/documentation/cloudera-search/v1-latest/Cloudera-Search-User-Guide/csug_introducing.html)

    这基本上是 cloudera 集成 Hadoop 和 Solr 的开源项目。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2016-07-14
      • 2011-06-15
      • 2012-08-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多