【发布时间】:2016-12-15 10:43:28
【问题描述】:
我在 HBase 中拥有超过 60 亿条社交媒体数据(包括内容/时间/作者和其他可能的字段),48 个服务器中的 4100 个区域,我现在需要将这些数据刷新到 Elasticsearch 中。
我很清楚 ES 的批量 API,在 Java 中使用 MapReduce 的批量仍然需要很多天(至少一周左右)。我可以改用 spark,但我认为它不会有太大帮助。
我想知道是否有任何其他技巧可以将这些大数据写入 ElasticSearch ?比如手动写入es索引文件并使用某种recover加载本地文件系统中的文件?
感谢任何可能的建议,谢谢。
==============
关于我的集群环境的一些细节:
spark 1.3.1 独立版(我可以在 yarn 上更改它以使用 Spark 1.6.2 或 1.6.3)
Hadoop 2.7.1 (HDP 2.4.2.258)
弹性搜索 2.3.3
【问题讨论】:
-
:我在 Spark + Hbase +Solr 以及 Solr + Hbase + mapreduce 索引方面也有经验。我不知道除了 spark 之外的任何其他技术,mapreduce 将大大提高性能。根据我的经验,你可以接受 spark 是最好的选择。
标签: elasticsearch apache-spark indexing mapreduce hbase