【发布时间】:2017-06-01 19:05:45
【问题描述】:
我正在使用 CountVectorizer 对文本进行标记,并且我想添加自己的停用词。为什么这不起作用? 'de' 这个词不应该出现在最终版本中。
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(ngram_range=(1,1),stop_words=frozenset([u'de']))
word_tokenizer = vectorizer.build_tokenizer()
print (word_tokenizer(u'Isto é um teste de qualquer coisa.'))
[u'Isto', u'um', u'teste', u'de', u'qualquer', u'coisa']
【问题讨论】:
-
我以前从未使用过这个库,但文档说
stop_words应该是一个列表。你试过stop_words=[u'de']吗? -
是的@Tagc,那是我的第一次尝试。但后来看到了这个stackoverflow.com/questions/40124476/…
-
但是,它也不起作用。
标签: python scikit-learn nlp