Python中计算TF-IDF(scikit-learn)

scikit-learn包下有计算TF-IDF的api，其效果也很不错。首先得安装Scikit-clearn

Scikit-learn 依赖:

pip install scikit-learn

计算TF-IDF

　　scikit-learn包进行TF-IDF分词权重计算主要用到了两个类：CountVectorizer和TfidfTransformer。其中

　　CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵，矩阵元素a[i][j] 表示j词在第i个文本下的词频。即各个词语出现的次数，通过get_feature_names()可看到所有文本的关键字，通过toarray()可看到词频矩阵的结果。