【问题标题】:How and when to deal with outliers in your dataset (general strategy)如何以及何时处理数据集中的异常值(一般策略)
【发布时间】:2021-06-22 08:09:25
【问题描述】:

我偶然发现了以下问题:

我正在做一个数据科学的初学者项目。我得到了测试和训练数据拆分,现在我正在分析每个特征,然后将其添加到离散连续变量的数据框或连续变量的数据框。 这样做我遇到了一个带有大异常值的特征。如果我想删除它们,我已经添加到我的子数据框的其他功能将具有比这个更多的列条目。

我应该找到一种策略,用“更好”的值覆盖异常值,还是应该重新考虑我的策略,一开始就为这两种类型的变量拆分训练数据?我不这么认为 不过,摆脱真实 train_data 中的异常行会很有用...

【问题讨论】:

    标签: python pandas outliers eda


    【解决方案1】:

    有很多方法可以处理异常值。 在我的数据科学课程中,我们使用了“数据插补”:

    但在您开始替换或删除数据之前,重要的是要分析异常值产生的差异以及异常值是否有效。

    • 如果异常值无效,您可以删除异常值并使用如下所述的数据插补。

    • 如果您的离群值有效,请检查有无离群值的结果差异。如果差异非常小,则没有问题。如果差异很大,您可以使用 standardizationnormalization

    您可以将异常值替换为:

    • 随机值(不推荐)
    • 一个基于启发式逻辑的值
    • 基于其邻居的值
    • 中位数、平均值或模式。
    • 基于插值的值(使用特定的 ml 模型进行预测)

    我建议使用效果最好的策略。

    Statquest 以非常通俗易懂的方式解释了数据科学和机器学习的概念,如果您遇到更多理论问题,请参考他:https://www.youtube.com/user/joshstarmer

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-11-21
      • 2011-01-23
      • 1970-01-01
      • 1970-01-01
      • 2016-02-14
      • 2010-12-10
      相关资源
      最近更新 更多