【发布时间】:2012-10-15 11:25:40
【问题描述】:
对于表单的文件
A B user1
C D user2
A D user3
A D user1
我想计算字段 3 的不同值的计数,即count(distinct(user1, user2,user2,user1)) = 3
我正在使用以下猪脚本进行此操作
A = load 'myTestData' using PigStorage('\t') as (a1,a2,a3);
user_list = foreach A GENERATE $2;
unique_users = DISTINCT user_list;
unique_users_group = GROUP unique_users ALL;
uu_count = FOREACH unique_users_group GENERATE COUNT(unique_users);
store uu_count into 'output';
有没有更好的方法来计算字段的不同值?
【问题讨论】:
标签: hadoop apache-pig