【发布时间】:2015-02-13 19:24:42
【问题描述】:
我正在尝试使用 scikit-learn 的 CountVectorizer 计算一个简单的词频。
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
texts=["dog cat fish","dog cat cat","fish bird","bird"]
cv = CountVectorizer()
cv_fit=cv.fit_transform(texts)
print cv.vocabulary_
{u'bird': 0, u'cat': 1, u'dog': 2, u'fish': 3}
我期待它返回{u'bird': 2, u'cat': 3, u'dog': 2, u'fish': 2}。
【问题讨论】:
-
CountVectorizer创建“术语到特征索引的映射” - 如果您只想要频率,为什么不使用collections.Counter?
标签: python scikit-learn