【发布时间】:2016-11-22 14:41:35
【问题描述】:
我在 Hive 中有一个这样的表: dt(时间戳),event_id(字符串)
我正在查找同一会话中(例如)一天内发生的所有事件。假设一个会话可以跨越多天。
session dt event_id
1 2016-06-10 00:07:33 u38443jdnksdjoeoewk
2 2016-06-11 11:11:41 u39839jdijewenkfjij
1 2016-06-15 13:07:42 u38443jdjdksdnlqpma
2 2016-06-12 05:08:07 u38443jmcmsdjwewekh
在这种情况下,结果集将是
2016-06-11 11:11:41 u39839jdijewenkfjij
2016-06-12 05:08:07 u38443jmcmsdjwewekh
因为其他行的时间戳超过了一天。这看起来可以通过自加入来实现,但这将非常昂贵。有没有更好的办法?
【问题讨论】: