具有分类预测变量和交互作用的二项式逻辑回归（二项式家庭参数和 p 值差异）答案

【问题标题】：Binomial logistic regression with categorical predictors and interaction (binomial family argument and p-value differences)具有分类预测变量和交互作用的二项式逻辑回归（二项式家庭参数和 p 值差异）
【发布时间】：2018-03-20 22:37:47
【问题描述】：

当我在我的 glm 模型中使用交互加上 family = 二项式参数时以及当我将其省略时，我有一个关于显着性和显着性差异的问题。我对逻辑回归很陌生，过去只做过更简单的线性回归。

我有一个树木年轮观察结果的数据集，其中包含两个分类解释变量（Treatment和Origin >）。处理变量是具有四个级别（对照、第一次干旱、第二次干旱和两次干旱）的实验性干旱处理。 Origin 变量具有三个级别，指的是树的起源（给定的代码颜色表示不同的起源为红色、黄色和蓝色）。我的观察是是否存在年轮（1 = 存在年轮，0 = 没有年轮）。

就我而言，我对 Treatment 的效果、Origin 的效果以及 Treatment 和 Origin 的可能相互作用感兴趣。

有人建议，二项式逻辑回归将是分析此数据集的好方法。（希望这是合适的？也许有更好的方法？）

我有 n = 5（按原产地处理的每种组合的 5 个观察值。因此，例如，对照处理蓝色起源树的 5 个年轮观察值，对照处理黄色起源树的 5 个观察值等）因此，数据集中总共有 60 个年轮观测值。

在 R 中，我使用的代码是 glm() 函数。我设置如下：growthring_model

我已经考虑了我的解释变量，因此控制处理和蓝色原点树是我的参考。

我注意到的是，当我将“family = binomial”参数排除在代码之外时，它会给出我根据数据结果合理预期的 p 值。但是，当我添加“family = binomial”参数时，p 值为 1 或非常接近 1（例如 1、0.98、0.99）。这似乎很奇怪。我可以看到重要性很低，但是考虑到我的实际数据，这些值都非常接近 1，这让我感到怀疑。如果我在不使用“family = binomial”参数的情况下运行模型，我得到的 p 值似乎更有意义（即使它们仍然相对较高/微不足道）。

有人可以帮助我理解二项式论证如何使我的结果发生如此大的变化吗？（我知道它指的是分布，即我的观察结果是 1 或 0）到底是什么它改变了模型？这是样本量低的结果吗？我的代码中有什么东西吗？也许那些非常高的值是正确的（或不是？）？

这里是我的模型摘要的读出，其中存在二项式参数：称呼： glm(公式 = 生长环 ~ 治疗 + 起源 + 治疗:起源, 家庭=二项式（链接=“logit”），数据=增长数据）

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-1.79412  -0.00005  -0.00005  -0.00005   1.79412  

Coefficients:
                                       Estimate Std. Error z value Pr(>|z|)
(Intercept)                          -2.057e+01  7.929e+03  -0.003    0.998
TreatmentFirst Drought               -9.931e-11  1.121e+04   0.000    1.000
TreatmentSecond Drought               1.918e+01  7.929e+03   0.002    0.998
TreatmentTwo Droughts                -1.085e-10  1.121e+04   0.000    1.000
OriginYellow                          1.918e+01  7.929e+03   0.002    0.998
OriginRed                            -1.045e-10  1.121e+04   0.000    1.000
TreatmentFirst Drought:OriginYellow  -1.918e+01  1.373e+04  -0.001    0.999
TreatmentSecond Drought:OriginYellow -1.739e+01  7.929e+03  -0.002    0.998
TreatmentTwo Droughts:OriginYellow   -1.918e+01  1.373e+04  -0.001    0.999
TreatmentFirst Drought:OriginRed      1.038e-10  1.586e+04   0.000    1.000
TreatmentSecond Drought:OriginRed     2.773e+00  1.121e+04   0.000    1.000
TreatmentTwo Droughts:OriginRed       2.016e+01  1.373e+04   0.001    0.999

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 57.169  on 59  degrees of freedom
Residual deviance: 28.472  on 48  degrees of freedom
AIC: 52.472

Number of Fisher Scoring iterations: 19

这里是我的模型摘要的读出，没有二项式参数：称呼： glm(公式 = Growthring ~ Treatment + Origin + Treatment:Origin, data = growthringdata)

Deviance Residuals: 
Min      1Q  Median      3Q     Max  
-0.8     0.0     0.0     0.0     0.8  

Coefficients:
                                   Estimate Std. Error t value Pr(>|t|)  
(Intercept)                          -4.278e-17  1.414e-01   0.000           1.0000  
TreatmentFirst Drought                3.145e-16  2.000e-01   0.000   1.0000  
TreatmentSecond Drought               2.000e-01  2.000e-01   1.000   0.3223  
TreatmentTwo Droughts                 1.152e-16  2.000e-01   0.000   1.0000  
OriginYellow                          2.000e-01  2.000e-01   1.000   0.3223  
OriginRed                             6.879e-17  2.000e-01   0.000   1.0000  
TreatmentFirst Drought:OriginYellow  -2.000e-01  2.828e-01  -0.707   0.4829  
TreatmentSecond Drought:OriginYellow  2.000e-01  2.828e-01   0.707   0.4829  
TreatmentTwo Droughts:OriginYellow   -2.000e-01  2.828e-01  -0.707   0.4829  
TreatmentFirst Drought:OriginRed     -3.243e-16  2.828e-01   0.000   1.0000  
TreatmentSecond Drought:OriginRed     6.000e-01  2.828e-01   2.121   0.0391 *
TreatmentTwo Droughts:OriginRed       4.000e-01  2.828e-01   1.414   0.1638  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for gaussian family taken to be 0.1)

    Null deviance: 8.9833  on 59  degrees of freedom
Residual deviance: 4.8000  on 48  degrees of freedom
AIC: 44.729

Number of Fisher Scoring iterations: 2

（对于我的问题可能很简单，我提前道歉。我已尝试阅读逻辑回归并尝试遵循一些示例。但我一直在努力寻找解决我的特殊情况的答案）

非常感谢。

【问题讨论】：

这不是编程问题。如需统计帮助，请访问 stats.stackexchange。
另外，请确保您查看的是正确的列，在第二个粘贴输出块中，格式似乎有点不对劲。它仍然是 p 值的第 4 列数字。只有一个小于 0.05。我建议查看一些关于虚拟数据的模型预测。（确保在二项式模型上运行 predict 时使用 type = "response"）我认为这将帮助您决定哪种模型有意义。
嗨，格雷戈尔。啊，抱歉，非常感谢，我会将其切换到 stats.stackexchange。是的，我认为您对格式的看法也是正确的。我会按照你的建议尝试一些模型预测。

标签： r logistic-regression glm p-value

【解决方案1】：

根据上面 Gregor 的评论，可以将其解释为编程问题。如果您忽略family = binomial，函数glm() 将使用默认的family = gaussian，这意味着一个身份链接函数并假设正常的同方差错误。另见?glm。

这里可能违反了正常和/或同方差错误的假设。因此，此处显示的第二个模型的标准误和 p 值可能不正确。

【讨论】：