评估逻辑回归中的预测器性能（glm、glmnet R）答案

【问题标题】：Assessing predictor performance in logistic regression (glm, glmnet R)评估逻辑回归中的预测器性能（glm、glmnet R）
【发布时间】：2015-08-17 16:39:24
【问题描述】：

我想评估逻辑回归模型 (mymodel1) 中每个预测变量的性能。这些是预测变量的显着性分数，所有值均

z <- summary(mymodel1)$coefficients/summary(mymodel1)$standard.errors
p <- (1 - pnorm(abs(z), 0, 1)) * 2
p
(Intercept)        alpha         beta gamma theta
2 0.000000e+00 0.000000e+00 0.000000e+00     0     0
3 0.000000e+00 0.000000e+00 0.000000e+00     0     0
4 2.644718e-05 4.905187e-11 7.112932e-06     0     0
5 0.000000e+00 0.000000e+00 0.000000e+00     0     0
6 0.000000e+00 0.000000e+00 0.000000e+00     0     0

【问题讨论】：

标签： r logistic-regression prediction glm

【解决方案1】：

围绕这个话题有很多争论；真的很难对一种方法进行投票而不是另一种方法。不过，我列出了一些用于评估各个预测变量的贡献的方法。

标准化回归系数

绝对值越高，贡献越大。我也看过下面的表格

=标准化 Co.Eff 的 Abs.Value/Sum（所有标准化 Co.Eff 的 Abs.Value）

卡方统计

卡方值越高，贡献越高。然而，卡方值并不能说明大小。

对数似然值

您使用单个预测变量运行回归，并将对数似然值 (-2LL) 与完整模型对数似然进行比较。

注意：这些都是近似值，我还没有找到一种严格的方法来计算预测变量的贡献

【讨论】：

【解决方案2】：

为了确定预测器性能（也称为特征重要性），您可以考虑在样本中对每个预测器变量的值进行改组（本质上是创建一个随机变量）...

在样本中随机化一个预测变量
创建模型并使用适当的度量进行评分...如果您可以使用不同的交叉折叠迭代创建多个模型以构建分数分布，则最好。记录分数。
对每个预测变量重复过程（步骤 1 和 2）。
查看和/或使用统计量测量导致模型性能下降最大的变量。

基本上，您刚刚通过“移除”它确定了对模型贡献最多信息的变量。

【讨论】：