【问题标题】:Random Forest for multi-label classification用于多标签分类的随机森林
【发布时间】:2015-09-22 10:11:16
【问题描述】:

我正在申请多标签文本分类。 我尝试了不同的机器学习算法。

毫无疑问,带有线性核的 SVM 会得到最好的结果。

我也尝试过对随机森林算法进行排序,得到的结果非常糟糕,召回率和准确率都很低。

线性内核响应更好结果的事实让我知道不同类别是线性可分的。

随机森林结果如此之低有什么原因吗?

【问题讨论】:

    标签: python machine-learning svm random-forest text-classification


    【解决方案1】:

    随机森林的集成在许多领域和数据类型中表现良好。它们在减少方差误差方面非常出色,并且如果树保持足够简单,它们就不会过度拟合。

    我希望森林的性能与具有线性内核的 SVM 相当。

    SVM 将倾向于过度拟合,因为它不会从集成中受益。

    如果您没有使用某种交叉验证。至少使用测试/训练方案测量看不见的数据的性能,而不是我看到你获得这种类型的结果。

    返回并确保根据不可见的数据衡量性能,并且您可能会看到 RF 的性能更具可比性。

    祝你好运。

    【讨论】:

      【解决方案2】:

      如果不查看相关数据,很难回答这个问题。

      SVM 确实有更好地处理文本分类的历史 - 但机器学习的定义是依赖于上下文的。

      考虑运行随机森林算法的参数。你的树的数量和深度是多少,你在修剪树枝吗?您是否正在为 SVM 搜索更大的参数空间,因此更有可能找到更好的最优值。

      【讨论】:

        猜你喜欢
        • 2020-01-31
        • 2023-03-28
        • 2016-07-29
        • 2020-08-16
        • 2018-07-10
        • 2017-03-15
        • 2019-09-05
        • 2013-09-22
        • 2018-02-18
        相关资源
        最近更新 更多