【发布时间】:2020-01-10 12:43:39
【问题描述】:
我有一个包含这些列的数据框:Date、ID 和 Value。我需要在Value 上执行均值、中值和方差,我像这样使用.agg:
df = dataset\
.groupby(['ID', pd.Grouper(key='Date', freq='60T')])['Value']\
.agg(['mean', 'median', 'var'])\
.reset_index()
它成功计算了平均值,但是当它需要计算中位数时,它只是重复平均值并且不存储或创建 var 列。结果如下:
ID Date mean median var
0 13834 2017-02-09 12:00:00 1.474920 1.474920 NaN
1 13834 2017-02-09 16:00:00 4.424796 4.424796 NaN
2 13834 2017-02-09 20:00:00 2.241871 2.241871 NaN
3 13834 2017-02-10 00:00:00 2.654867 2.654867 NaN
4 13834 2017-02-10 04:00:00 2.654867 2.654867 NaN
5 13834 2017-02-10 08:00:00 0.511062 0.511062 NaN
在最后一个数字的末尾应该有方差列,而不是我什么都没有(或NaNs,如果显示在数据框中)。我该如何解决这个问题?
【问题讨论】:
-
只是理论上 - 也许你的分组每组返回一行 - 然后自然 mean=median 和 var=0 ?
-
对于平均值 = 中位数它可以,但为什么 var 仍然是 nan 而不是 0?
-
因为你每组有 1 行 - 检查一个虚拟示例:`` df.groupby(df.index).agg(["mean", "median", "var"]) .reset_index()``` - 它显然使用 1/(N-1) 的方差估计器,如果 N=1,则返回 NaN。 en.wikipedia.org/wiki/Variance
-
天哪,你是对的。所以我简单地填写na(0)。谢谢!
-
不用担心,很高兴它成功了