Hive over HBase vs Hive over HDFS答案

【问题标题】：Hive over HBase vs Hive over HDFSHive over HBase vs Hive over HDFS
【发布时间】：2012-07-28 23:45:14
【问题描述】：

我的数据不需要实时加载，所以我不必使用 HBASE，但我想知道在 MR Jobs 中使用 HBASE 是否有任何性能优势，连接速度不应该更快吗？索引数据？

有人有任何基准吗？

【问题讨论】：

标签： hadoop mapreduce hbase hive

【解决方案1】：

一般来说，hive/hdfs 会比 HBase 快很多。 HBase 位于 HDFS 之上，因此它增加了另一层。如果您要查找单个记录，HBase 会更快，但您不会为此使用 MR 作业。

【讨论】：

【解决方案2】：

HBase 与 Hive 的性能对比：

基于 HBase、Hive 和 Hive on Hbase 的结果：看来这两种方法的性能相当。

Hive on HBase Performance

【讨论】：

【解决方案3】：

尊敬的 :) 我想告诉您，如果您的数据不是真实的，并且您也在考虑使用 mapreduce 作业，那么只能通过 hdfs 进行配置，因为 Weblog 可以由 Hadoop MapReduce 程序处理并存储在 HDFS 中。同时，Hive支持HDFS位置数据的快速读取、基础SQL、join、批量数据加载到Hive数据库。
由于蜂巢也为我们提供
批量处理/实时（如果可能）
以及类似 SQL 的接口
内置优化的 map-reduce
大数据分区，与 hdfs 更兼容，有助于减少 HBase 层，否则如果你在这里添加 HBase 那么它对你来说将是多余的功能:)

【讨论】：