【问题标题】:R lme4 model: calculating effect size between continuous predictor's max-min valueR lme4模型:计算连续预测器的最大值-最小值之间的效果大小
【发布时间】:2021-09-20 23:20:12
【问题描述】:

在使用 R lme4 多级模型时,我正在努力计算连续预测变量的最大-最小值之间的效应大小。

模拟数据:预测变量“x”的范围为 1 到 3

library(tidyverse)
n = 100
a = tibble(y = rep(c("pos", "neg", "neg", "neg"), length.out = n), x = rep(3, length.out = n), group = rep(letters[1:7], length.out = n))
b = tibble(y = rep(c("pos", "pos", "neg", "neg"), length.out = n), x = rep(2, length.out = n), group = rep(letters[1:7], length.out = n))
c = tibble(y = rep(c("pos", "pos", "pos", "neg"), length.out = n), x = rep(1, length.out = n), group = rep(letters[1:7], length.out = n))
d = rbind(a, b)
df = rbind(d, c)
df = df %>% mutate(y = as.factor(y))
df

型号

library("lme4")
m = glmer(
  y ~ x + (x | group), 
  data = df, 
  family = binomial(link = "logit"))

输出

ggpredict(m, "x")

.

# Predicted probabilities of y

x | Predicted |       95% CI
----------------------------
1 |      0.75 | [0.67, 0.82]
2 |      0.50 | [0.44, 0.56]
3 |      0.25 | [0.18, 0.33]

Adjusted for:
* group = 0 (population-level)

我无法计算预测变量的“x”最大值 (3) 和最小值 (1) 值之间的影响大小

我最好的尝试

library("emmeans")
emmeans(m, "x", trans = "logit", type = "response", at = list(x = c(1, 3)))
 x response     SE  df asymp.LCL asymp.UCL
 1     0.75 0.0387 Inf     0.667     0.818
 3     0.25 0.0387 Inf     0.182     0.333

Confidence level used: 0.95 
Intervals are back-transformed from the logit scale 

如何计算 CI 在预测变量的“x”最大值 (3) 和最小值 (1) 之间的影响大小? 影响大小应该是概率尺度。

【问题讨论】:

  • 也许是pairs(emmeans(...))?
  • 似乎没有给出效果大小...
  • 那我就难住了。通常要求效应量的人想要一些标准化的、无单位的度量。但你说你想要概率尺度。我的建议就是这样做的。你不能同时拥有它。
  • 为什么会这样?在贝叶斯回归中,以概率尺度(也是 logit 链接模型)计算这种效应大小非常容易。也许常客类比只能给出不同连续预测器水平的概率(我上面的例子)?无法使用预测变量的最大值和最小值之间的 CI 计算效果大小?

标签: r regression logistic-regression lme4


【解决方案1】:

我会尝试回答,但我仍然不确定问题是什么。我将假设需要的是两个概率之间的差异。

显示的emmeans 调用中有很多活动部分,因此我将逐步进行。首先,让我们估计一下有问题的概率:

> library(emmeans)
> EMM = emmeans(m, "x", at = list(x = c(1, 3)), type = "response")
> EMM
 x prob     SE  df asymp.LCL asymp.UCL
 1 0.75 0.0387 Inf     0.667     0.818
 3 0.25 0.0387 Inf     0.182     0.333

Confidence level used: 0.95 
Intervals are back-transformed from the logit scale 

获得成对比较的最快方法是通过

> pairs(EMM)
 contrast odds.ratio   SE  df null z.ratio p.value
 1 / 3             9 2.94 Inf    1   6.728  <.0001

Tests are performed on the log odds ratio scale 

如注释中所述(以及文档中所述,例如vignette on comparisons,当进行对数或对数转换时,比较显示为比率。这是因为测试是在链接上执行的( logit) 标度,对数之间的差异是一个比率的对数。

如果我们想要概率之间的差异,则有必要创建一个新对象,其中估计的主要量是概率,而不是它们的 logits。在 emmeans 中,这可以通过 regrid() 函数完成:

> EMMP = regrid(EMM, transform = "response")
> EMMP
 x prob     SE  df asymp.LCL asymp.UCL
 1 0.75 0.0387 Inf     0.674     0.826
 3 0.25 0.0387 Inf     0.174     0.326

Confidence level used: 0.95

这个输出看起来很像EMM的摘要;但是,logit 变换的所有记忆都已被删除,因此置信区间是不同的,因为它们是直接从prob 估计的 SE 计算的。有关详细信息,请参阅vignette on transformations。 所以现在如果我们比较这些,我们会得到概率的差异:

> confint(pairs(EMMP))
 contrast estimate     SE  df asymp.LCL asymp.UCL
 1 - 3         0.5 0.0612 Inf      0.38      0.62

Confidence level used: 0.95 

(注意:我将它包装在confint() 中,以便我们获得置信区间,而不是 t 比率和 P 值。)

这可以在一行代码中完成,如下所示:

confint(pairs(emmeans(m, "x", transform = "response", at = list(x = c(1, 3)))))

transform 参数要求将参考网格立即传递给regrid()。请注意,这里的正确参数是transform = "response",而不是transform = "logit"(即指定您想要结束的内容,而不是您开始的内容)。后者撤消,然后重做 logit 转换,让您回到开始的位置。

emmeans 包提供了很多选项,我真的建议您阅读这些小插曲。

【讨论】:

  • 这太完美了!谢谢!
猜你喜欢
  • 2021-09-25
  • 2018-07-22
  • 1970-01-01
  • 1970-01-01
  • 2020-11-20
  • 2021-01-15
  • 1970-01-01
  • 1970-01-01
  • 2015-10-29
相关资源
最近更新 更多