【问题标题】:Assessing predictor performance in logistic regression (glm, glmnet R)评估逻辑回归中的预测器性能(glm、glmnet R)
【发布时间】:2015-08-17 16:39:24
【问题描述】:

我想评估逻辑回归模型 (mymodel1) 中每个预测变量的性能。这些是预测变量的显着性分数,所有值均

z <- summary(mymodel1)$coefficients/summary(mymodel1)$standard.errors
p <- (1 - pnorm(abs(z), 0, 1)) * 2
p
(Intercept)        alpha         beta gamma theta
2 0.000000e+00 0.000000e+00 0.000000e+00     0     0
3 0.000000e+00 0.000000e+00 0.000000e+00     0     0
4 2.644718e-05 4.905187e-11 7.112932e-06     0     0
5 0.000000e+00 0.000000e+00 0.000000e+00     0     0
6 0.000000e+00 0.000000e+00 0.000000e+00     0     0

【问题讨论】:

    标签: r logistic-regression prediction glm


    【解决方案1】:

    围绕这个话题有很多争论;真的很难对一种方法进行投票而不是另一种方法。不过,我列出了一些用于评估各个预测变量的贡献的方法。

    1. 标准化回归系数

    绝对值越高,贡献越大。我也看过下面的表格

    =标准化 Co.Eff 的 Abs.Value/Sum(所有标准化 Co.Eff 的 Abs.Value)

    1. 卡方统计

    卡方值越高,贡献越高。然而,卡方值并不能说明大小。

    1. 对数似然值

    您使用单个预测变量运行回归,并将对数似然值 (-2LL) 与完整模型对数似然进行比较。

    注意:这些都是近似值,我还没有找到一种严格的方法来计算预测变量的贡献

    【讨论】:

      【解决方案2】:

      为了确定预测器性能(也称为特征重要性),您可以考虑在样本中对每个预测器变量的值进行改组(本质上是创建一个随机变量)...

      1. 在样本中随机化一个预测变量
      2. 创建模型并使用适当的度量进行评分...如果您可以使用不同的交叉折叠迭代创建多个模型以构建分数分布,则最好。记录分数。
      3. 对每个预测变量重复过程(步骤 1 和 2)。
      4. 查看和/或使用统计量测量导致模型性能下降最大的变量。

      基本上,您刚刚通过“移除”它确定了对模型贡献最多信息的变量。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2014-06-20
        • 1970-01-01
        • 1970-01-01
        • 2012-02-09
        • 2016-03-08
        • 1970-01-01
        • 1970-01-01
        • 2018-07-19
        相关资源
        最近更新 更多