【发布时间】:2016-01-05 01:50:23
【问题描述】:
我想知道 TfidfVectorizer 在使用 scikit-learn 转换文档时是否保持特征的顺序。这是我正在做的事情:
from sklearn.feature_exteraction.text import TfidfVectorizer
corpus = ['this movie is cool', 'I love this book']
vec = TfidfVectorizer()
X = vec.fit_tranform(corpus)
joblib.dump(vec, './vec')
doc = 'What are the coolest movies in 2015'
vec = joblib.load('./vec')
X_test = vec.transform([doc])
现在,我的问题是 X 和 X_test 中的特征条目是否以相同的顺序排列?
【问题讨论】:
-
请注意,在您的示例中,您的测试文档中没有任何单词出现在您的训练语料库中,因此
X_test将全为零(参见例如X_test.A.any()的输出)
标签: scikit-learn tf-idf