【发布时间】:2015-06-26 17:25:09
【问题描述】:
我已经看到了几个接近解决我的问题的解决方案
但到目前为止,他们并没有帮助我取得成功。
我相信以下解决方案是我所需要的,但仍然出现错误(而且我没有对此发表评论/问题的声誉点):link
(我收到以下错误,但我不明白在管理以下命令 df2=df.groupby('install_site').transform(replace) 时在哪里 .copy() 或添加“inplace=True”:
SettingWithCopyWarning:
试图在 DataFrame 中的切片副本上设置一个值。
尝试改用.loc[row_indexer,col_indexer] = value
请参阅文档中的注意事项:link
所以,我试图想出我自己的版本,但我一直卡住。来了。
我有一个按时间索引的数据框,其中包含站点列(许多不同站点的字符串值)和浮点值。
time_index site val
我想浏览按站点分组的“val”列,并将任何异常值(与平均值的 +/- 3 个标准偏差)替换为 NaN(对于每个组)。
当我使用以下函数时,我无法用我的真/假向量索引数据框:
def replace_outliers_with_nan(df, stdvs):
dfnew=pd.DataFrame()
for i, col in enumerate(df.sites.unique()):
dftmp = pd.DataFrame(df[df.sites==col])
idx = [np.abs(dftmp-dftmp.mean())<=(stdvs*dftmp.std())] #boolean vector of T/F's
dftmp[idx==False]=np.nan #this is where the problem lies, I believe
dfnew[col] = dftmp
return dfnew
另外,我担心上面的函数在超过 700 万行时会花费很长时间,这就是我希望使用 groupby 函数选项的原因。
【问题讨论】:
-
您收到的错误只是一个警告。即使操作成功,它似乎有时也会出现。尽管有消息,您是否检查过使用该方法是否真的有效?