【发布时间】:2015-02-24 02:01:24
【问题描述】:
我正在使用 sklearn 对一些文本数据进行逻辑回归训练,方法是使用 CountVectorizer 将数据标记为二元组。我使用如下一行代码:
vect= CountVectorizer(ngram_range=(1,2), binary =True)
但是,我想限制自己只在我的结果稀疏矩阵中包含在我的所有数据中出现超过某个阈值次数(例如 50 次)的二元组。有什么方法可以指定或实现它吗?
【问题讨论】:
标签: python text scikit-learn tokenize