【发布时间】:2016-05-30 13:21:47
【问题描述】:
场景:
我分析 TB 的数据并在此基础上进行一些文本挖掘,并将数据存储到 HDFS 文件中。然后查询我们将这些数据导入 Hive 的数据。
但是我们还需要对增量数据进行一些更新操作。例如,如果新旧数据中存在相同的rowkey,则更新数据而不是插入。
目前我正在使用 HDFS 进行上述操作。现在我正在考虑使用读/写操作进入 HBase。
我想知道这种方法的性能优缺点 与 HDFS 相比,使用 HBase 读/写和 MapReduce。
【问题讨论】:
标签: hadoop mapreduce hbase hdfs