【发布时间】:2018-06-29 15:12:30
【问题描述】:
估算缺失值和极值的中值,从中值的计算中排除那些极值。
我想使用中位数进行估算。我想计算不包括极值的中位数。然后我想将这些极端值归为中值。
我有一个这样的数据框:
df = pd.DataFrame({"AAA":[100,NaN,0.0,0.1,4.6]})
AAA
0 100
1 NaN
2 0.0
3 0.1
4 4.6
我想将观察指数 =0 定义为异常值,因此,将其从插补计算中排除,并插补它的值。
AAA impute
0 100 True
1 NaN True
2 0.0 False
3 0.1 False
4 4.6 False
然后我想在新的 AAA_ 列中估算 NaN 的值
AAA impute AAA_
0 100 True NaN
1 NaN True NaN
2 0.0 False 0.0
3 0.1 False 0.1
4 4.6 False 4.6
因此,我想要一个如下所示的数据框:
AAA impute AAA_
0 100 True 0.1
1 NaN True 0.1
2 0.0 False 0.0
3 0.1 False 0.1
4 4.6 False 4.6
【问题讨论】:
标签: pandas scikit-learn data-cleaning