【发布时间】:2015-06-09 10:37:59
【问题描述】:
我有一个大型索引,我需要对其执行近乎实时的更新和全文搜索,但我也希望能够在该数据上运行 map-reduce 作业。是否可以在不必维护两个单独的数据副本的情况下做到这一点? (例如 Solr 中的一个副本,HDFS 中的另一个)。
它看起来像 Solr can be configured to use HDFS for storage,但它看起来与 map-reduce 不兼容,因为它只是将索引存储在 HDFS 中,而这种方式很难从 Hadoop map-reduce 中读取。
对于 ElasticSearch,有es-hadoop,但这是面向从 Hadoop 内部读写 ElasticSearch,但似乎无法解决近实时将数据导入 HDFS 或避免两个问题数据的副本。
有没有人遇到过类似的问题,或者可能找到了其他可能有助于解决问题的工具?或者,为 map-reduce 作业提供单独的数据副本是标准做法吗?
谢谢!
【问题讨论】:
标签: hadoop solr elasticsearch hdfs