【发布时间】:2014-11-04 18:01:43
【问题描述】:
我有
x cluster_id
0 1 1
1 3 1
2 2 2
3 5 2
4 4 3
我要生成
x cluster_id s
0 1 1 1
1 3 1 4
2 2 2 3
3 5 2 7
4 4 3 4
即s 是 x 的运行总和,但它会在集群 id 更改时重置。这是如何实现的?
或者,如果它更容易,它可能是好的
x cluster_id s
0 1 1 4
1 3 1 4
2 2 2 7
3 5 2 7
4 4 3 4
即同一个簇内s的所有值都相同,对应簇内的总和。
另外,我想对其进行二次抽样,以便保留每个集群的最后一行:
x cluster_id s
1 3 1 4
3 5 2 7
4 4 3 4
(请注意,所有集群 ID 都不同)。我该怎么做?
【问题讨论】:
标签: python pandas dataframe cumulative-sum