【发布时间】:2018-11-01 13:24:11
【问题描述】:
两者有什么区别?似乎两者都创建了新列,它们的数量等于特征中唯一类别的数量。然后他们根据它们所在的类别为数据点分配 0 和 1。
【问题讨论】:
-
它与one-vs-all而不是one-vs-k编码有关吗?编码标签时,每个类都必须存在。编码变量时,最后一个(?)不应该被编码,因为它依赖于其他变量,并且大多数模型都需要独立变量。虽然,对于大量维度,这可能并不重要。
-
@AndrewLavers 即使在编码变量时,如果您希望该变量的新分类值出现在验证集/测试集/生产环境中,您应该对所有变量进行编码。否则,“最后一个值”和新的词汇表外值之间没有区别。
标签: python encoding scikit-learn data-science categorical-data