【发布时间】:2015-10-20 21:40:48
【问题描述】:
我有一个 Impala 表,我想使用 Ibis 进行查询。该表如下所示:
id | timestamp
-------------------
A | 5
A | 7
A | 3
B | 9
B | 5
我想根据id 和timestamp range 的独特组合来group_by 这个表。分组操作最终应该生成一个 grouped 对象,然后我可以对其应用聚合。例如:
group1 条件:id == A; 4 < timestamp < 11
group2 条件:id == A; 1 < timestamp < 6
group3 条件:id == B; 4 < timestamp < 7
产生具有以下组的grouped 对象:
组1:
id | timestamp
-------------------
A | 5
A | 7
组2:
id | timestamp
-------------------
A | 5
A | 3
组3:
id | timestamp
-------------------
B | 5
拥有组后,我将执行各种聚合以获得最终结果。如果有人能帮我弄清楚这个 group_by 将不胜感激,即使是普通的 pandas 表达式也会有所帮助!
【问题讨论】:
标签: python pandas group-by cloudera impala