【发布时间】:2013-11-14 06:12:07
【问题描述】:
我对@987654321@ 有一些疑问。
我不清楚这些词是如何选择的。我们可以提供最低限度的支持,但在那之后,将决定选择哪些功能(例如,更高的支持更多的机会)?如果我们说max_features = 10000,我们总是一样吗?如果我们说max_features = 12000,我们是否会获得相同的10000 功能,但额外添加了2000?
另外,有没有办法扩展max_features=20000 功能?我把它放在一些文本上,但我知道一些肯定应该包含的单词,还有一些表情符号“:-)”等。如何将这些添加到 TfidfVectorizer 对象,以便可以使用对象,将其用于fit 和predict
to_include = [":-)", ":-P"]
method = TfidfVectorizer(max_features=20000, ngram_range=(1, 3),
# I know stopwords, but how about include words?
stop_words=test.stoplist[:100],
# include words ??
analyzer='word',
min_df=5)
method.fit(traindata)
寻求的结果:
X = method.transform(traindata)
X
<Nx20002 sparse matrix of type '<class 'numpy.int64'>'
with 1135520 stored elements in Compressed Sparse Row format>],
where N is sample size
【问题讨论】:
标签: python machine-learning nlp scikit-learn