【发布时间】:2015-07-10 20:47:54
【问题描述】:
嗨,有没有办法计算 HIVE 中不同的运行计数?
我有一个数据框,其中包含日期和时间以及当前正在访问网站的人的 ID。
我想做的是知道不同的“累积”计数 id 按日期拆分。
我不能使用 group by dt, hour, count(distinct id) 因为如果玩家 在 1 和 2 处于活动状态,它将被计算两次。
有没有办法使用 Hive 分析和窗口化来做到这一点?
我试过了:
select date, hour,
count(distinct id) over( partition by date order by hrs rows between unbounded preceding and current row) users
from db.table
但它会引发错误。
【问题讨论】: