【发布时间】:2014-09-03 02:41:21
【问题描述】:
假设我有一个分类特征,颜色,它采用值
['红色','蓝色','绿色','橙色'],
我想用它来预测随机森林中的某些东西。如果我对其进行一次热编码(即我将其更改为四个虚拟变量),我如何告诉 sklearn 这四个虚拟变量实际上是一个变量?具体来说,当 sklearn 随机选择要在不同节点上使用的特征时,它应该包括红色、蓝色、绿色和橙色的假人,或者不应该包括任何一个。
我听说没有办法做到这一点,但我想必须有一种方法来处理分类变量,而不是将它们任意编码为数字或类似的东西。
【问题讨论】:
-
这是自 2014 年以来对 sklearn 的一项有用且长期存在的增强请求。一个考虑因素是他们是否应该优先实施新的 pandas Categorical 或通用 numpy。
标签: python scikit-learn random-forest one-hot-encoding