【发布时间】:2016-08-23 00:27:31
【问题描述】:
这是数据集
用户 ID、类别 ID、日期
A,123, 2016-01-01
A,123, 2016-01-01
B,123, 2016-01-01
C,123, 2016-01-01
C,123, 2016-01-01
D,123, 2016-01-01
E,123, 2016-01-01
需要如下输出:
日期、类别 ID、观看频率、用户数量
2016-01-01, 123, 1, 3
2016-01-01, 123, 2, 2
说明:
根据数据集,有 3 个用户(B、D、E)只查看了一次该类别。
有 2 位用户(A、C)查看了该类别 2 次。
此场景的 Hive 查询是:
select numberOfUsers, category, impression_date, count(numberOfUsers) as countOfUsers from ( select count(user_id) as numberOfUsers, category, impression_date from userVisit 按类别分组,user_id,impression_date) temp 按 numberOfUsers、类别、impression_date 分组 按 countOfUsers asc 排序;
这个场景的 Mapreduce 代码是什么?
【问题讨论】: