解释文本分类的随机森林模型

【问题标题】：interpert random forest model for text classificaiton解释文本分类的随机森林模型
【发布时间】：2016-04-02 18:16:57
【问题描述】：

我有一个文本数据集，我在其中手动将每条记录分类为两个可能的类别之一。我在语料库上创建了一个 TFIDF，没有英语停用词，训练/测试了随机森林分类器，评估了模型，并将模型应用于更大的文本语料库。到目前为止一切都很好，但是如何找到关于我的模型的更多信息，即如何找出哪些词对模型“重要”？

【问题讨论】：

标签： python python-2.7 scikit-learn nltk

【解决方案1】：

经过训练的 RF 应该有一个属性feature_importances_。我认为您必须使用oob_score=True（在构造函数中）来训练模型。特征重要性将告诉您哪些特征（数据矩阵列）有影响。要获取单词，请返回 tfidf 矢量化器并获取其vocabulary_ 属性（注意尾随下划线），这是从单词到列索引的字典。

有关词汇表属性的解释，请参见这篇文章：sklearn : TFIDF Transformer : How to get tf-idf values of given words in document

【讨论】：

有道理。非常感谢！