【发布时间】:2019-02-11 00:40:18
【问题描述】:
我是machine learning 的新手,我的问题是:
如果包含三个类,我们是否需要编码因变量 y 段 1,2,3 我想知道是否需要编码 因变量不包含时
【问题讨论】:
我是machine learning 的新手,我的问题是:
如果包含三个类,我们是否需要编码因变量 y 段 1,2,3 我想知道是否需要编码 因变量不包含时
【问题讨论】:
如果单个变量有 k 类,OneHotEncoder 将创建 k 列数。
例如:如果该数据集中的性别值为Male/Female,它将创建2 变量,
如果性别值为male/Female/PreferNotToSay,它将创建3 变量
现在,您不希望谓词 y 中有多个变量,因此最好使用 LabelEncoder(来自 sklearn.preprocessing)或一些保持维度不变的机制。
【讨论】:
我没有清楚地知道你的情况是什么因变量。
下面是一个热编码的例子:
之前:
name gender
a M
b F
c O
之后
name M F O
a 1 0 0
b 0 1 0
c 0 0 1
【讨论】: