【发布时间】:2017-08-06 14:27:14
【问题描述】:
我正在查看 MultinomialNB 分类器中包含的字段,并且我正在尝试手动推导 feature_count_ 进行频率计数,但它与我看到的结果不匹配。在文档中说
此值在提供时按样本重量加权。
这个重量在哪里或如何计算?
这是完整的例子:
X_train, X_test = ['vecindario', 'friends'], ['amigos', 'neighbourhood']
Y_train, Y_test = [0, 1], [0, 1]
# Use vect = TfidfVectorizer(ngram_range=(3, 3), analyzer='char', use_idf=False)
# clf = MultinomialNB()
# clf.fit(X_train, Y_train)
vect.vocabulary_
>>> {'ari' : 0 , 'cin' : 1 , 'dar' : 2 , 'eci' : 3 , 'end' : 4 , 'fri' : 5 , 'ien' : 6 , 'ind' : 7 , 'nda' : 8 , 'nds' : 9 , 'rie' : 10, 'rio' : 11, 'vec' : 12}
clf.feature_count_
>>> [
[ 0.35355339 0.35355339 0.35355339 0.35355339 0. 0. 0. 0.35355339 0.35355339 0. 0. 0.35355339 0.35355339]
[ 0. 0. 0. 0. 0.4472136 0.4472136 0.4472136 0. 0. 0.4472136 0.4472136 0. 0. ]
]
【问题讨论】:
标签: python machine-learning scikit-learn naivebayes