【问题标题】:Are there any methods for finding the value of variable which has significant influence on response?是否有任何方法可以找到对响应有重大影响的变量的值?
【发布时间】:2020-05-06 05:26:12
【问题描述】:

我有一个包含 5 个变量和 1 个响应的数据集。变量是离散的。我想找到导致响应显着增加或减少的关键变量及其值。

【问题讨论】:

    标签: machine-learning statistics


    【解决方案1】:

    您需要执行一些统计测试才能找出最重要的变量。

    如果你熟悉 python,你可以使用来自 scikit-learn 的SelectKBest。它会给你一个分数,分数越高,特征和输出之间的联系越强。

    此外,您可以训练一个可解释的 ML 模型,该模型足以收敛,并在数据中找到模式,从中可以计算特征重要性。

    例如,您可以使用来自 scikit-learn 的 DecisionTreeClasifier。它有一个 decision_path 类函数,可以绘制树所采用的决策路径,decision_path 有一个名为 feature_importances_ 的属性,它使用 Gini 系数来计算特征的重要性。

    最后但并非最不重要的一点是,您可以使用特征缩减技术,例如PCA,它用于查找变量之间的方差,从 PCA 中您将计算链接的新主成分对于功能,从最能说明问题的功能中,您可以找到功能的重要性。看看这个stack overflow answer,它解释了你应该知道的一切。

    【讨论】:

      猜你喜欢
      • 2016-04-25
      • 2015-09-23
      • 2020-06-04
      • 2020-05-10
      • 1970-01-01
      • 2015-04-18
      • 1970-01-01
      • 1970-01-01
      • 2020-11-02
      相关资源
      最近更新 更多