【发布时间】:2016-03-08 19:54:45
【问题描述】:
我一直在尝试使用 sklearn 的 Tfidfvectorizer。
我只关心TF,不关心idf,所以我的设置有use_idf = FALSE
完整的设置是:
vectorizer = TfidfVectorizer(max_df=0.5, max_features= n_features,
ngram_range=(1,3), use_idf=False)
我一直在尝试复制.fit_transform 的输出,但到目前为止还没有成功,希望有人可以为我解释计算结果。
我的玩具例子是:
document = ["one two three one four five",
"two six eight ten two"]
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
n_features = 5
vectorizer = TfidfVectorizer(max_df=0.5, max_features= n_features,
ngram_range=(1,3), use_idf=False)
X = vectorizer.fit_transform(document)
count = CountVectorizer(max_df=0.5, max_features= n_features,
ngram_range=(1,3))
countMat = count.fit_transform(document)
我假设来自 Count Vectorizer 的计数将与 Tfidf Vectorizer 中使用的计数相同。所以我试图改变 countMat 对象以匹配 X。
【问题讨论】:
标签: python-2.7 nlp scikit-learn