检测df中的异常值答案

【问题标题】：Detecting outliers in df检测df中的异常值
【发布时间】：2018-12-06 01:37:54
【问题描述】：

我有几列数百行的数字数据集，看起来类似于：

a   |  b  |  c  |  d
1   |  3  |  .3 |  26
.02 | 32  |  5  |  2.6

我正在尝试使用std 检测异常值，我找到了这段代码：

df.a[((df.a - df.a.mean()) / df.a.std()).abs() > 2]

我想要为单个列做什么，我希望能够在一个循环中为整个df 做这件事吗？每列有不同的mean 和std。这可能很简单，但我对这一切都很陌生。是否可以将df 中的异常值显示为值并在其他单元格（无异常值）Nan 或0 中显示？

非常感谢。

【问题讨论】：

【解决方案1】：

试试下面的代码：

for col in df.columns:
    df[col] = df[col][((df[col] - df[col].mean()) / df.[col].std()).abs() > 2]

【讨论】：