【发布时间】:2012-08-28 04:27:05
【问题描述】:
这是一个关于 ngram 线性回归的问题,使用 Tf-IDF(词频 - 逆文档频率)。为此,我使用 numpy 稀疏矩阵和 sklearn 进行线性回归。
在使用 unigram 时,我有 53 个案例和 6000 多个特征。预测基于使用 LeaveOneOut 的交叉验证。
当我创建一个仅包含 unigram 分数的 tf-idf 稀疏矩阵时,我得到的预测比创建一个包含 unigram+bigram 分数的 tf-idf 稀疏矩阵时要好一些。我添加到矩阵中的列越多(三元组、四元组、五元组等的列),回归预测的准确度就越低。
这很常见吗?这怎么可能?我会认为功能越多越好。
【问题讨论】:
-
您的任务是什么(例如,文档分类)以及您拥有什么样的/多少数据?
标签: machine-learning scikit-learn nlp regression tf-idf