【发布时间】:2016-07-23 09:17:14
【问题描述】:
我试图使用来自 sklearn 的随机森林分类器包来拟合随机森林模型。但是,我的数据集由具有字符串值('国家')的列组成。这里的随机森林分类器不采用字符串值。它需要所有特征的数值。我想用一些虚拟变量来代替这些列。但是,我对特征重要性图现在的样子感到困惑。会有 country_India、country_usa 等变量。如果我使用 R 进行分析,如何获得 country 变量的综合重要性。
【问题讨论】:
标签: machine-learning scikit-learn random-forest