【发布时间】:2015-05-11 23:27:56
【问题描述】:
在 Pig 中,获取计数的有效方法是什么?我们可以做一个 GROUP ALL,但是只给了 1 个 reducer。当数据量很大时,比如 n TB,我们可以尝试多个 reducer 吗?
dataCount = FOREACH (GROUP data ALL) GENERATE
'count' as metric,
COUNT(dataCount) as value;
【问题讨论】:
标签: apache-pig reducers