【问题标题】:Can anyone please explain me the functioning of standard scalers in python sklearn [closed]谁能解释一下python sklearn中标准缩放器的功能[关闭]
【发布时间】:2020-07-16 18:24:19
【问题描述】:

我阅读了它们并发现,它们基本上是按比例放大了值。所以它们不会改变记录的值吗?好的,如果他们按比例放大/缩小值,所以图表必须每次看起来都一样,但我看到图表根据缩放器的选择发生了变化。请让我知道这一点,因为我是新手。

【问题讨论】:

    标签: machine-learning scikit-learn data-science


    【解决方案1】:

    当我们比较具有不同单位的测量值时,以标准偏差 1 对中心和 0 周围的特征进行标准化非常重要。在不同尺度上测量的变量对分析的贡献并不相同,最终可能会产生偏差。但是,最小值和最大值会根据变量的分布程度而有所不同,开始时,并且受存在的高度影响异常值。

    例如,介于 0 和 1000 之间的变量将超过介于 0 和 1 之间的变量。在未标准化的情况下使用这些变量将在分析中给出具有更大范围权重 1000 的变量。将数据转换为可比较的比例可以防止这个问题。典型的数据标准化程序使范围和/或数据可变性相等。

    特别注意,由于每个特征上的异常值具有不同的量级,因此每个特征上转换后的数据的分布非常不同。StandardScaler 在存在异常值的情况下无法保证平衡的特征尺度。

    正如您在选择缩放器时看到图表中的变化一样,您可以使用 StandardScaler() 来标准化数据的一种方法到目前为止不适用于 NaN(缺失值)。处理 NaN 值并不是那么简单.在采取任何进一步的步骤来处理 NaN 值之前,它需要对数据进行分析。您可以通过多种方式处理这些缺失值(以下并非详尽列表):

    • 完全忽略缺失值:这种方法的问题是缺失的行可能包含其他重要信息 列并忽略它们会导致分析不完整
    • 用另一个值替换它们:这是常用的方法之一,但您将用于替换的值的选择 会影响你的整体分析。你可以用say替换它们 意思是,或者说一个占位符值(如 -1),你永远不知道 出现在整个列中。
    • 使用回归替换值
    • **使用 KNN 替换值 **

    【讨论】:

      猜你喜欢
      • 2021-09-12
      • 1970-01-01
      • 2020-06-08
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-04-07
      相关资源
      最近更新 更多