【发布时间】:2012-03-29 11:23:03
【问题描述】:
我正在使用 scikit-learn 来查找文档的 Tf-idf 权重,然后使用 Naive
贝叶斯分类器对文本进行分类。但是文档中所有单词的 Tf-idf 权重都是负的,除了少数。但据我所知,负值意味着不重要的术语。那么是否有必要将整个 Tf-idf 值传递给贝叶斯分类器?如果我们只需要通过其中的几个,我们该怎么做呢?此外,与线性 SVC 相比,贝叶斯分类器的优劣程度如何?除了使用 Tf-idf 之外,还有更好的方法在文本中查找标签吗?
谢谢
【问题讨论】:
标签: python machine-learning bayesian scikits scikit-learn