【发布时间】:2022-01-18 03:40:58
【问题描述】:
(请注意,我还没有可重现的示例,但我正在研究它)。
我使用 tidymodel 框架训练了一个随机森林模型。我的结果是一个包含三个类别的类别变量。
现在,在查看预测类和实际类之间的混淆矩阵时,我注意到有一个单元格,其中类错误特别高:
示例表:
# A tibble: 3 x 4
predicted_class actual_class_1 actual_class_2 actual_class_3
<chr> <int> <int> <int>
1 1 260 77 20
2 2 109 460 84
3 3 52 99 781
我特别担心/感兴趣的是模型预测第 2 类的第 1 类不匹配(即 N=109 个案例,占第 1 类的 26%)。
现在,我的问题是:有没有办法设置随机森林模型以优化某个类错误,试图减少 26% 的不匹配?
我可以想象的一种天真的方法是在分配第 1 类和第 2 类时使用不同的概率阈值,但我希望有一种更具防御性/模型固有的方法。
有什么想法吗?
【问题讨论】:
标签: r random-forest tidymodels