将特征误差纳入随机森林算法答案

【问题标题】：Incorporating feature error into the Random Forest algorithm将特征误差纳入随机森林算法
【发布时间】：2012-07-08 13:01:45
【问题描述】：

我正在使用 Random Forest 对大量天文物体进行分类，它的效果相对较好。但是，我想通过合并有关每个功能的方差（或误差条）的信息来进一步提高性能。

在天文学中，每次测量通常都有一个相关的误差线。例如，如果我测量红色和蓝色，每个颜色测量值都是亮度的测量值（在天文学中，即恒星的大小），一个误差，例如R 大小 14 +- 0.2，B 大小 12 +- 0.15。

我想弄清楚如何让随机森林使用错误栏作为额外的信息。有任何想法吗？

【问题讨论】：

您可以尝试将差异连接为额外特征
是的。我已经试过了。它有一点帮助，但它不是最好的解决方案。您仍然没有同时使用功能的错误和功能本身。
将是一个很酷的新分类器“方差感知随机森林”，它考虑了数值特征的方差。
但我想这种“方差感知随机森林”分类器目前不存在？
遗憾的是，我不知道它们，但尝试和实施是一件很酷的事情。

标签： machine-learning random-forest

【解决方案1】：

误差和颜色测量都是数字特征吗？然后我会简单地添加一个新功能，它是这两个功能的产物，我想这就是你所说的 R 中的交互

【讨论】：

【解决方案2】：

您可以考虑做的一件简单的事情是使用每个变量的误差分布重新采样数据。因此，您可以通过 x + u*sigma 生成新示例，其中 u 是正常 (0,1) 绘制，而 sigma 是该变量的错误的标准差。可能需要大量额外的样本才能正确合并噪声（取决于特征的数量），但由于 RF 并行训练的速度非常快，因此它可能是一种简单的方法。还有一个额外的好处是可以很容易地在采样中加入相关噪声。

【讨论】：