【发布时间】:2017-10-11 14:09:04
【问题描述】:
我目前正在使用 scikit-learn 对新闻文章进行分类,我想知道应该使用哪个分类器。我有带有标签数据的训练集,这使得这是一个监督学习问题,并且一篇文章可以属于多个类别(比如金融和政治),这使得它成为一个多标签 场景。
我目前使用CountVectorizer 进行预处理,然后使用带有 MultiOutputClassifier 的 Linear SVC 来构建模型。我按照这里http://scikit-learn.org/stable/tutorial/machine_learning_map/index.html的流程图使用LinearSVC。
classifier = MultiOutputClassifier(LinearSVC())
但我不确定我的用例是否有更好的算法。我的方法有什么 cmets 吗?
【问题讨论】:
-
试试
tf-idf和随机森林。 -
@mohammad 我知道这个问题,但这个问题甚至无法让事情正常工作。就我而言,我已经获得了多标签,但我只是想知道在我的用例中什么是更好的分类器。在您标记的问题中,根本没有关于使用哪个分类器的辩论,这就是我正在寻找的。span>
-
@polkovnikov.ph tf-idf 只是一个变压器,对吗?顺便说一句,如果我要使用随机森林,我还需要将 LinearSVC 作为元估计器传递吗?
标签: python scikit-learn