【发布时间】:2017-06-09 07:58:02
【问题描述】:
当我在我的测试数据上运行随机森林模型时,对于相同的数据集 + 模型,我会得到不同的结果。
以下是您可以看到第一列差异的结果:
> table((predict(rfModelsL[[1]],newdata = a)) ,a$earlyR)
FALSE TRUE
FALSE 14 7
TRUE 13 66
> table((predict(rfModelsL[[1]],newdata = a)) ,a$earlyR)
FALSE TRUE
FALSE 15 7
TRUE 12 66
虽然差异非常小,但我试图了解造成这种情况的原因。我猜predict 有“灵活”的分类阈值,尽管我在文档中找不到;我对吗?
提前谢谢你
【问题讨论】:
-
请仔细阅读软件包
randomForest的文档。它完美地解释了为什么这是记录在案的行为。您的 randomForest 是一组树,每次运行模型时,您都会得到一组略有不同的树。这与预测函数无关,这只是随机森林的工作方式。其次,关于统计技术的问题属于 stats.stackexchange.com,而不是 stackoverflow。
标签: r random-forest predict