【发布时间】:2020-01-15 15:57:38
【问题描述】:
我有以下例子:
sentences = ['Rashmi likes ice cream', 'Rashmi hates chocolate.']
vectorizer = CountVectorizer(min_df=0, lowercase=False)
vectorizer.fit(sentences)
vectorizer.vocabulary_
输出:
{'Rashmi': 0, 'likes': 5, 'ice': 4, 'cream': 2, 'hates': 3, 'chocolate': 1}
那么这些数字代表什么?没看懂。
【问题讨论】:
-
根据documentation,它是“术语到特征索引的映射”。
-
是的,我读过这个,但我不明白。 Rashmi 如何获得数字 0 并喜欢 5 ?这背后的逻辑是什么?
标签: python scikit-learn countvectorizer