【发布时间】:2015-06-29 11:53:06
【问题描述】:
给定以下数据框:
index value
1 0.8
2 0.9
3 1.0
4 0.9
5 nan
6 nan
7 nan
8 0.4
9 0.9
10 nan
11 0.8
12 2.0
13 1.4
14 1.9
15 nan
16 nan
17 nan
18 8.4
19 9.9
20 10.0
…
其中数据“值”按值 NAN 分为多个簇。有什么方法可以计算一些值,例如累积和或聚类数据的平均值,例如,我想计算累积和并生成以下数据框:
index value cumsum
1 0.8 0.8
2 0.9 1.7
3 1.0 2.7
4 0.9 3.6
5 nan 0
6 nan 0
7 nan 0
8 0.4 0.4
9 0.9 1.3
10 nan 0
11 0.8 0.8
12 2.0 2.8
13 1.4 4.2
14 1.9 6.1
15 nan 0
16 nan 0
17 nan 0
18 8.4 8.4
19 9.9 18.3
20 10.0 28.3
…
有什么建议吗?
同样作为问题的一个简单扩展,如果两个数据集群足够接近,比如只有1个NAN将它们分开我们认为是一个数据集群,这样我们可以有以下数据框:
index value cumsum
1 0.8 0.8
2 0.9 1.7
3 1.0 2.7
4 0.9 3.6
5 nan 0
6 nan 0
7 nan 0
8 0.4 0.4
9 0.9 1.3
10 nan 1.3
11 0.8 2.1
12 2.0 4.1
13 1.4 5.5
14 1.9 7.4
15 nan 0
16 nan 0
17 nan 0
18 8.4 8.4
19 9.9 18.3
20 10.0 28.3
感谢您的帮助!
【问题讨论】:
-
那里的答案只对一些非常具体的数字有效。
标签: python numpy pandas machine-learning dataframe