【发布时间】:2017-01-05 07:37:40
【问题描述】:
我正在努力解决 kaggle https://www.kaggle.com/c/titanic 中的泰坦尼克号生存挑战。
我在 R 方面没有经验,所以我使用 Python 和 Scikit Learn 进行 随机森林分类器
我看到许多使用 scikit 的人学习将他们的多个级别的分类转换为虚拟变量。
我不明白这样做的意义,为什么我们不能将级别映射为数值并完成它。
我还看到有人这样做: 有一个分类特征 Pclass 具有三个级别,他为此创建了 3 个虚拟变量并删除了存活率最低的变量。我也无法理解这一点,尽管决策树并不关心相关特征。
【问题讨论】:
标签: python scikit-learn random-forest