【发布时间】:2016-11-07 07:45:21
【问题描述】:
我正在研究一个有 10 个标签的多标签文本分类问题。 数据集很小,总共有 +- 7000 个项目和 +-7500 个标签。我正在使用 python sci-kit learn,结果出现了一些奇怪的东西。作为基线,我开始使用 countvectorizer,实际上计划使用我认为效果更好的 tfidf 矢量化器。但它没有.. 使用 countvectorizer 我获得了 0,1 更高 f1score 的性能。 (0.76 对 0.65)
我无法理解为什么会出现这种情况? 有10个类别,一个叫做杂项。尤其是这个使用 tfidf 的性能要低得多。
有谁知道什么时候 tfidf 的性能会比 count 差?
【问题讨论】:
-
f1 分数是什么意思?
标签: python-2.7 scikit-learn tf-idf