【发布时间】:2014-03-18 20:53:20
【问题描述】:
在 scikit-learn 中,我需要哪些模型将分类变量分解为虚拟二进制字段?
例如,如果列是political-party,值是democrat、republican 和green,对于许多算法,您必须将其分成三列,每行只能包含一个@ 987654325@,其余的必须是0。
这避免了执行离散化 [democrat, republican and green] => [0, 1, 2] 时不存在的序数,因为 democrat 和 green 实际上并不比另一对“更远”。
对于 scikit-learn 中的哪些算法,这种转换为虚拟变量是必要的?对于那些不是的算法,它不会受到伤害,对吧?
【问题讨论】:
标签: python machine-learning scikit-learn