【发布时间】:2019-10-06 06:38:45
【问题描述】:
我正在做方言文本分类,我正在使用带有朴素贝叶斯的 countVectorizer。特征数量太多,我收集了 20k 条推文,有 4 种方言。每个方言都有 5000 条推文。并且特征总数为43K。我在想也许这就是我可能过度拟合的原因。因为当我对新数据进行测试时,准确性下降了很多。那么如何固定特征数量以避免过度拟合数据呢?
【问题讨论】:
标签: python nlp text-classification naivebayes countvectorizer