如何以及何时处理数据集中的异常值（一般策略）答案

【问题标题】：How and when to deal with outliers in your dataset (general strategy)如何以及何时处理数据集中的异常值（一般策略）
【发布时间】：2021-06-22 08:09:25
【问题描述】：

我偶然发现了以下问题：

我正在做一个数据科学的初学者项目。我得到了测试和训练数据拆分，现在我正在分析每个特征，然后将其添加到离散连续变量的数据框或连续变量的数据框。这样做我遇到了一个带有大异常值的特征。如果我想删除它们，我已经添加到我的子数据框的其他功能将具有比这个更多的列条目。

我应该找到一种策略，用“更好”的值覆盖异常值，还是应该重新考虑我的策略，一开始就为这两种类型的变量拆分训练数据？我不这么认为不过，摆脱真实 train_data 中的异常行会很有用...

【问题讨论】：

【解决方案1】：

有很多方法可以处理异常值。在我的数据科学课程中，我们使用了“数据插补”：

但在您开始替换或删除数据之前，重要的是要分析异常值产生的差异以及异常值是否有效。

如果异常值无效，您可以删除异常值并使用如下所述的数据插补。
如果您的离群值有效，请检查有无离群值的结果差异。如果差异非常小，则没有问题。如果差异很大，您可以使用 standardization 和 normalization。

您可以将异常值替换为：

我建议使用效果最好的策略。

Statquest 以非常通俗易懂的方式解释了数据科学和机器学习的概念，如果您遇到更多理论问题，请参考他：https://www.youtube.com/user/joshstarmer

【讨论】：