【问题标题】:mixed predicator types for Random forest随机森林的混合预测器类型
【发布时间】:2014-10-11 19:36:52
【问题描述】:

我正在尝试使用随机森林为具有 5 个预测变量的数据集构建分类模型。两个预测变量是连续类型的,一个可以是[0, 1000]区间内的实数值,另一个可以是[-10, 10]区间内的实数值;一个预测变量是整数值[10000, 15000]。此外,剩下的两个预测变量是分类值,即{ A, B, C, D, E F}{NY, LA, Chicago}。预处理这些不同的预测器类型是否需要任何程序?

【问题讨论】:

    标签: machine-learning classification random-forest feature-selection


    【解决方案1】:

    许多穷举搜索算法将偏向于具有多个值的变量。如this 论文所述,分离变量选择和拆分选择过程似乎对此有所帮助。他们也在 R 中实现了package。我不知道如何使用更常见的方法来避免混合类型数据的这种情况。然而,尽管这个问题会导致偏差,但根据我的经验,预测性能并没有太大的不同,所以你的里程可能会有所不同。这取决于你在做什么。无论哪种方式,我都会做一些模拟。同一组有两篇关于条件排列重要性的 bmc 生物信息学论文讨论了这些问题。

    【讨论】:

      猜你喜欢
      • 2019-07-10
      • 2016-04-09
      • 2014-08-07
      • 2021-03-21
      • 2019-05-04
      • 2020-10-15
      • 2021-06-23
      • 2019-02-19
      相关资源
      最近更新 更多