【发布时间】:2015-09-22 10:11:16
【问题描述】:
我正在申请多标签文本分类。 我尝试了不同的机器学习算法。
毫无疑问,带有线性核的 SVM 会得到最好的结果。
我也尝试过对随机森林算法进行排序,得到的结果非常糟糕,召回率和准确率都很低。
线性内核响应更好结果的事实让我知道不同类别是线性可分的。
随机森林结果如此之低有什么原因吗?
【问题讨论】:
标签: python machine-learning svm random-forest text-classification
我正在申请多标签文本分类。 我尝试了不同的机器学习算法。
毫无疑问,带有线性核的 SVM 会得到最好的结果。
我也尝试过对随机森林算法进行排序,得到的结果非常糟糕,召回率和准确率都很低。
线性内核响应更好结果的事实让我知道不同类别是线性可分的。
随机森林结果如此之低有什么原因吗?
【问题讨论】:
标签: python machine-learning svm random-forest text-classification
随机森林的集成在许多领域和数据类型中表现良好。它们在减少方差误差方面非常出色,并且如果树保持足够简单,它们就不会过度拟合。
我希望森林的性能与具有线性内核的 SVM 相当。
SVM 将倾向于过度拟合,因为它不会从集成中受益。
如果您没有使用某种交叉验证。至少使用测试/训练方案测量看不见的数据的性能,而不是我看到你获得这种类型的结果。
返回并确保根据不可见的数据衡量性能,并且您可能会看到 RF 的性能更具可比性。
祝你好运。
【讨论】:
如果不查看相关数据,很难回答这个问题。
SVM 确实有更好地处理文本分类的历史 - 但机器学习的定义是依赖于上下文的。
考虑运行随机森林算法的参数。你的树的数量和深度是多少,你在修剪树枝吗?您是否正在为 SVM 搜索更大的参数空间,因此更有可能找到更好的最优值。
【讨论】: