【发布时间】:2015-04-01 12:05:09
【问题描述】:
情况 - 每天大约 3000 万行,CDH 5.2 集群(16 个节点,共享集群)中 Impala 托管表中价值 2 年的数据。
尝试将每日汇总逻辑放在一起,其中一天的数据被引入并汇总,并且该过程在随后的几天中一遍又一遍地重复。 (通过黑斑羚)
这是一个一次性过程,用于创建整个 2 年窗口的聚合,随后由其他工具使用。
我想知道,这里的工具选择是否真的是正确的?我们不应该通过将这项工作交给 hive 来利用集群的力量(这样它就可以触发 mapreduce 和聚合可以相对容易地完成)?
[编辑]
澄清一下,数据已经在 Impala 表上,我所指的聚合是在此之上完成的。从解决方案的角度来看,我的想法是,将这些数据提供给 hive 表(而不是 impala 表)然后让 map-reduce 处理聚合会更好吗?
基于 impala 的聚合对我们来说确实很慢,虽然我们正在考虑对其进行调整,但我想知道我们是否可以做一些不同的事情?
【问题讨论】:
标签: mapreduce cloudera cloudera-cdh impala