【问题标题】:Best classifier for classifying articles分类文章的最佳分类器
【发布时间】:2017-10-11 14:09:04
【问题描述】:

我目前正在使用 scikit-learn 对新闻文章进行分类,我想知道应该使用哪个分类器。我有带有标签数据的训练集,这使得这是一个监督学习问题,并且一篇文章可以属于多个类别(比如金融和政治),这使得它成为一个多标签 场景。

我目前使用CountVectorizer 进行预处理,然后使用带有 MultiOutputClassifier 的 Linear SVC 来构建模型。我按照这里http://scikit-learn.org/stable/tutorial/machine_learning_map/index.html的流程图使用LinearSVC。

classifier = MultiOutputClassifier(LinearSVC())

但我不确定我的用例是否有更好的算法。我的方法有什么 cmets 吗?

【问题讨论】:

  • 试试tf-idf 和随机森林。
  • @mohammad 我知道这个问题,但这个问题甚至无法让事情正常工作。就我而言,我已经获得了多标签,但我只是想知道在我的用例中什么是更好的分类器。在您标记的问题中,根本没有关于使用哪个分类器的辩论,这就是我正在寻找的。​​span>
  • @polkovnikov.ph tf-idf 只是一个变压器,对吗?顺便说一句,如果我要使用随机森林,我还需要将 LinearSVC 作为元估计器传递吗?

标签: python scikit-learn


【解决方案1】:

尝试 scikit-learn 中的 sgdClassifier,它可以为您提供更多模型构建选项,而且它比 LinearSVM 更快。

您应该使用 OneVsRestclassifier 而不是 multiOutputClassifier,因为您正在寻找多标签输出。

【讨论】:

    猜你喜欢
    • 2013-06-29
    • 1970-01-01
    • 1970-01-01
    • 2016-01-16
    • 2014-01-09
    • 1970-01-01
    • 1970-01-01
    • 2019-08-15
    • 2014-09-07
    相关资源
    最近更新 更多