如何使用逐步回归来删除 R 中逻辑回归中的特定系数？答案

【问题标题】：How can I use stepwise regression to remove a specific coefficient in logistic regression within R?如何使用逐步回归来删除 R 中逻辑回归中的特定系数？
【发布时间】：2019-04-19 05:49:37
【问题描述】：

当我对汽车数据集运行逻辑回归时：

carlogistic.fit4 <- glm(as.factor(Mpg01) ~ Weight+Year+Origin, data=carslogic, family="binomial")
summary(carlogistic.fit4)

我得到以下输出：称呼： glm(formula = as.factor(Mpg01) ~ Weight + Year + Origin, family = "binomial", 数据=汽车逻辑）

偏差残差：最小值 1Q 中值 3Q 最大值
-2.29189 -0.10014 -0.00078 0.19699 2.60606

Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)    -2.697e+01  5.226e+00  -5.161 2.45e-07 ***
Weight         -6.006e-03  7.763e-04  -7.737 1.02e-14 ***
Year            5.677e-01  8.440e-02   6.726 1.75e-11 ***
OriginGerman    1.256e+00  5.172e-01   2.428   0.0152 *  
OriginJapanese  3.250e-01  5.462e-01   0.595   0.5519    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 549.79  on 396  degrees of freedom
Residual deviance: 151.06  on 392  degrees of freedom
AIC: 161.06

但是，如果您注意到日本原产汽车的 p 值大于 0.05，因此是微不足道的。我想从模型中删除它，但是，正如您在初始代码中看到的那样，列标题是 Origin。如何从模型中排除日本血统？

【问题讨论】：

我想我已经明确指定它的p值大于.05并且模型不是最优的。这就是为什么它需要被排除。我无法修改 csv 中的原始数据集。
这不是 R 中逐步回归的工作方式；术语经过测试，并按术语删除，Origin 是一个术语。如果您想这样做（我不推荐），解决方法是显式构建数字模型矩阵（使用model.matrix()），这会将您的因子转换为两个数字虚拟变量；将模型矩阵中的变量用作单独的数字预测变量，然后您可以根据需要单独删除它们。如果你给出一个可重现的例子，有人可能会提供更多细节......

标签： r logistic-regression glm lm p-value

【解决方案1】：

OriginJapanese 很重要，因为它与重要的OriginGerman 直接相关。您应该从变量Origin 的角度考虑其重要性，而不是根据它的各个级别。如果其中任何一个水平具有显着影响，则该变量可以被认为是显着的。

如果您想删除 OriginJapanese 效果，您要么必须完全删除 Origin，要么将日本汽车重新标记到另一个组（这将与其他非德国汽车混在一起）。

【讨论】：

【解决方案2】：

看看逻辑回归函数，我会假设 Origin 是一个虚拟变量？如果是这样，在这种情况下，仅删除 OriginJapanese 将不起作用。您需要一起删除“Origin”并重新运行模型并比较 AIC 以及新模型中重量和年份的重要性。

举个例子，如果我们有一个性别（男性、女性）虚拟变量，而女性虚拟变量似乎不显着，那么删除女性虚拟变量意味着您正在更改抽样并仅查看男性人口。

【讨论】：

【解决方案3】：

一种可能性是to try looking into stepwise-selection with caret。另一种可能的方法是通过交叉验证，即the LAR/LASSO approaches.

【讨论】：