随机森林的混合预测器类型

【问题标题】：mixed predicator types for Random forest随机森林的混合预测器类型
【发布时间】：2014-10-11 19:36:52
【问题描述】：

我正在尝试使用随机森林为具有 5 个预测变量的数据集构建分类模型。两个预测变量是连续类型的，一个可以是[0, 1000]区间内的实数值，另一个可以是[-10, 10]区间内的实数值；一个预测变量是整数值[10000, 15000]。此外，剩下的两个预测变量是分类值，即{ A, B, C, D, E F} 和{NY, LA, Chicago}。预处理这些不同的预测器类型是否需要任何程序？

【问题讨论】：

标签： machine-learning classification random-forest feature-selection

【解决方案1】：

许多穷举搜索算法将偏向于具有多个值的变量。如this 论文所述，分离变量选择和拆分选择过程似乎对此有所帮助。他们也在 R 中实现了package。我不知道如何使用更常见的方法来避免混合类型数据的这种情况。然而，尽管这个问题会导致偏差，但根据我的经验，预测性能并没有太大的不同，所以你的里程可能会有所不同。这取决于你在做什么。无论哪种方式，我都会做一些模拟。同一组有两篇关于条件排列重要性的 bmc 生物信息学论文讨论了这些问题。

【讨论】：