【发布时间】:2019-01-04 11:38:00
【问题描述】:
第 1 章:按性别划分的平均年龄
我经常与对统计输出有非常具体要求的流行病学家和统计学家合作,但我经常无法在 R 中重现完全相同的内容(我们的流行病学家在 Stata 中工作)。
让我们从一个简单的例子开始,学生 t 检验。我们感兴趣的是首次诊断的平均年龄和置信区间的差异。
1) 在 R 中创建一些示例数据
set.seed(41)
cohort <- data.frame(
id = seq(1,100),
gender = sample(c(rep(1,33), rep(2,67)),100),
age = sample(seq(0,50),100, replace=TRUE)
)
# save to import into Stata
# write.csv(cohort, "cohort.csv", row.names = FALSE)
b) 导入数据并在 Stata 中运行 t-test
import delimited "cohort.csv"
ttest age, by(gender)
我们想要的是平均值的绝对差 = 3.67 年,组合置信区间 = 95% CI:24.59 - 30.57
b) 在 R 中运行 t 检验
t.test(age~gender, data=cohort)
t.test(cohort$age[cohort$gender == 1])
t.test(cohort$age[cohort$gender == 2])
t.test(cohort$age)
肯定有另一种方法,而不是在 R 中运行 4 次 t 检验!
【问题讨论】:
标签: r statistics stata data-science