【发布时间】:2013-04-18 10:39:46
【问题描述】:
考虑这个可运行的例子:
#coding: utf-8
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
corpus = ['öåa hej ho' 'åter aba na', 'äs äp äl']
x = vectorizer.fit_transform(corpus)
l = vectorizer.get_feature_names()
for u in l:
print u
输出将是
aba
hej
ho
na
ter
为什么要删除 åäö?请注意,矢量化器 strip_accents=None 是默认设置。如果您能帮我解决这个问题,我将不胜感激。
【问题讨论】:
-
无法复制。您使用的是哪个版本的 scikit-learn?
-
我使用 sudo apt-get 下载了 sklearn。你的错误信息是什么?
-
没有错误信息,它工作得很好。再次,什么是版本?
sklearn.__version__.
标签: python machine-learning scikit-learn