【问题标题】:dependent variable One hot encoder因变量 一热编码器
【发布时间】:2019-02-11 00:40:18
【问题描述】:

我是machine learning 的新手,我的问题是:

如果包含三个类,我们是否需要编码因变量 y 段 1,2,3 我想知道是否需要编码 因变量不包含时

【问题讨论】:

    标签: python machine-learning


    【解决方案1】:

    如果单个变量有 k 类,OneHotEncoder 将创建 k 列数。

    例如:如果该数据集中的性别值为Male/Female,它将创建2 变量, 如果性别值为male/Female/PreferNotToSay,它将创建3 变量

    现在,您不希望谓词 y 中有多个变量,因此最好使用 LabelEncoder(来自 sklearn.preprocessing)或一些保持维度不变的机制。

    【讨论】:

      【解决方案2】:

      我没有清楚地知道你的情况是什么因变量。

      1. 如果您在谈论“y”输出,则不需要一种热编码。
      2. 如果特定列组合/依赖于任何其他列。在机器学习中,一列与另一列之间存在某种或其他关系。
      3. 最好对分类变量进行一次热编码。

      下面是一个热编码的例子:

      之前:

      name gender
      a     M
      b     F
      c     O
      

      之后

      name M F O
      a    1 0 0
      b    0 1 0
      c    0 0 1
      

      【讨论】:

        猜你喜欢
        • 2016-07-04
        • 2019-05-04
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2023-03-04
        • 2013-07-06
        • 2021-11-02
        相关资源
        最近更新 更多