【问题标题】:Standardize or Normalize Categorical values标准化或标准化分类值
【发布时间】:2021-06-01 05:33:20
【问题描述】:

我对数据科学相当陌生(我正在使用 python),并发现在我们进一步研究之前对我们的数据进行标准化或规范化会更好。我的问题是:

  1. 如果存在男性或女性等分类值(二进制并使用一种热编码,0 或 1),我们是否需要对此类数据进行标准化或规范化?
  2. 如果分类数据是非二元的,例如,您的健康状况(1= 差,2= 非常健康,3= 健康,4= 适合,5= 非常适合),该怎么办。我们还需要对这类数据进行标准化或规范化吗?

【问题讨论】:

    标签: python data-science normalize standardized


    【解决方案1】:

    如果您有超过 2 个分类值,最好将它们转换为一种热编码。分类值不应具有数学关系。如果您无法解释分类数据之间的数学顺序(例如,适合 > 健康?)您应该创建一个热向量并将其表示为特征:

                     Old Version      New version
                                  1th 2th  3th  4th  5th  6th
    poor              1           0   0    0    0    0     1
    quite             2           0   0    0    0    1     0
    healthy           3           0   0    0    1    0     0
    healthy           4           0   0    1    0    0     0
    fit               5           0   1    0    0    0     0
    very fit          6           1   0    0    0    0     0
    

    基本上你有 6 个新功能,每一个都代表你的一个类别。

    注意:不需要对二进制数据应用规范化或标准化,因为它已经在 [0,1] 中

    【讨论】:

    • 我明白了,但是如果我有其他包含数据的列,例如年龄和薪水,其中年龄范围从 1 到 80,薪水从例如开始。 5000 到 500000,因为它们在不同的范围内,我应该对它们都应用标准化还是标准化?例如,我对年龄和薪水进行标准化或标准化,但对一个热门编码类别也没有?
    • 您可以解释 5000 和 500000 之间的数学关系,以便您可以对年龄和薪水进行标准化。基本上,如果值之间存在数学关系,则可以应用归一化。
    猜你喜欢
    • 2021-04-04
    • 1970-01-01
    • 1970-01-01
    • 2010-09-19
    • 2012-05-27
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多