用于多标签分类的随机森林答案

【问题标题】：Random Forest for multi-label classification用于多标签分类的随机森林
【发布时间】：2015-09-22 10:11:16
【问题描述】：

我正在申请多标签文本分类。我尝试了不同的机器学习算法。

毫无疑问，带有线性核的 SVM 会得到最好的结果。

我也尝试过对随机森林算法进行排序，得到的结果非常糟糕，召回率和准确率都很低。

线性内核响应更好结果的事实让我知道不同类别是线性可分的。

随机森林结果如此之低有什么原因吗？

【问题讨论】：

【解决方案1】：

随机森林的集成在许多领域和数据类型中表现良好。它们在减少方差误差方面非常出色，并且如果树保持足够简单，它们就不会过度拟合。

我希望森林的性能与具有线性内核的 SVM 相当。

SVM 将倾向于过度拟合，因为它不会从集成中受益。

如果您没有使用某种交叉验证。至少使用测试/训练方案测量看不见的数据的性能，而不是我看到你获得这种类型的结果。

返回并确保根据不可见的数据衡量性能，并且您可能会看到 RF 的性能更具可比性。

祝你好运。

【讨论】：

【解决方案2】：

如果不查看相关数据，很难回答这个问题。

SVM 确实有更好地处理文本分类的历史 - 但机器学习的定义是依赖于上下文的。

考虑运行随机森林算法的参数。你的树的数量和深度是多少，你在修剪树枝吗？您是否正在为 SVM 搜索更大的参数空间，因此更有可能找到更好的最优值。

【讨论】：