【发布时间】:2020-07-16 18:24:19
【问题描述】:
我阅读了它们并发现,它们基本上是按比例放大了值。所以它们不会改变记录的值吗?好的,如果他们按比例放大/缩小值,所以图表必须每次看起来都一样,但我看到图表根据缩放器的选择发生了变化。请让我知道这一点,因为我是新手。
【问题讨论】:
标签: machine-learning scikit-learn data-science
我阅读了它们并发现,它们基本上是按比例放大了值。所以它们不会改变记录的值吗?好的,如果他们按比例放大/缩小值,所以图表必须每次看起来都一样,但我看到图表根据缩放器的选择发生了变化。请让我知道这一点,因为我是新手。
【问题讨论】:
标签: machine-learning scikit-learn data-science
当我们比较具有不同单位的测量值时,以标准偏差 1 对中心和 0 周围的特征进行标准化非常重要。在不同尺度上测量的变量对分析的贡献并不相同,最终可能会产生偏差。但是,最小值和最大值会根据变量的分布程度而有所不同,开始时,并且受存在的高度影响异常值。
例如,介于 0 和 1000 之间的变量将超过介于 0 和 1 之间的变量。在未标准化的情况下使用这些变量将在分析中给出具有更大范围权重 1000 的变量。将数据转换为可比较的比例可以防止这个问题。典型的数据标准化程序使范围和/或数据可变性相等。
特别注意,由于每个特征上的异常值具有不同的量级,因此每个特征上转换后的数据的分布非常不同。StandardScaler 在存在异常值的情况下无法保证平衡的特征尺度。
正如您在选择缩放器时看到图表中的变化一样,您可以使用 StandardScaler() 来标准化数据的一种方法到目前为止不适用于 NaN(缺失值)。处理 NaN 值并不是那么简单.在采取任何进一步的步骤来处理 NaN 值之前,它需要对数据进行分析。您可以通过多种方式处理这些缺失值(以下并非详尽列表):
【讨论】: