【问题标题】:interpert random forest model for text classificaiton解释文本分类的随机森林模型
【发布时间】:2016-04-02 18:16:57
【问题描述】:

我有一个文本数据集,我在其中手动将每条记录分类为两个可能的类别之一。我在语料库上创建了一个 TFIDF,没有英语停用词,训练/测试了随机森林分类器,评估了模型,并将模型应用于更大的文本语料库。到目前为止一切都很好,但是如何找到关于我的模型的更多信息,即如何找出哪些词对模型“重要”?

【问题讨论】:

    标签: python python-2.7 scikit-learn nltk


    【解决方案1】:

    经过训练的 RF 应该有一个属性feature_importances_。我认为您必须使用oob_score=True(在构造函数中)来训练模型。特征重要性将告诉您哪些特征(数据矩阵列)有影响。要获取单词,请返回 tfidf 矢量化器并获取其vocabulary_ 属性(注意尾随下划线),这是从单词到列索引的字典。

    有关词汇表属性的解释,请参见这篇文章:sklearn : TFIDF Transformer : How to get tf-idf values of given words in document

    【讨论】:

    • 有道理。非常感谢!
    猜你喜欢
    • 2020-03-30
    • 2016-05-25
    • 1970-01-01
    • 2019-02-26
    • 2013-02-06
    • 2015-09-29
    • 2019-05-04
    • 2017-05-22
    • 2019-09-05
    相关资源
    最近更新 更多