【发布时间】:2021-01-15 07:06:30
【问题描述】:
我有一个数据框 dfA(真正的有 1000 行和 400,000 列)。从第 6 列开始,变量名称是由 x 组成的“三元组”,带有 + 不同的前缀(GT_x、N_x、E_x),其中 x = rs1、rs7、rs300、rs502 等:
ID SEX PV GAN GAE GT_rs1 N_rs1 E_rs1 GT_rs7 N_rs7 E_rs7 ...
2 0 7.8 0.3 0.4 0 1 1 1 0 2 ...
6 1 6.4 0.35 0.55 0 0 1 1 1 2 ...
这是我的数据的可重现示例:
dfA = data.frame(rbind(c("ID","SEX","PV","GAN","GAE","GT_rs1","N_rs1","E_rs1","GT_rs7","N_rs7","E_rs7"),
c(2,0,7.8,0.3,0.4,0,1,1,1,0,2),
c(6,1,6.4,0.35,0.55,0,0,1,1,1,2)))
dfA = dfA %>% row_to_names(row_number = 1)
使用 R,我想运行形式的线性回归:
lm(PV ~ SEX + GAN + GT_x + N_x)
其中 x 是 rs1、rs7 等等。所以,我需要逐列迭代成对的变量。我想获得不同协变量(SEX、GAN、GT_x 和 N_x)的估计值、std.error、statistic 和 p.value。 SEX = 分类变量; PV, GAN = 定量变量; GT_x, N_x, E_x = 附加变量。
【问题讨论】:
-
你能用
dput(dfA)添加可重现的数据吗?拥有用于计算几个不同的lms(例如PV, SEX, GAN, GT_rs1, N_rs1, GT_rs7, N_rs7)的列以及足够的行来获得结果就足够了。 -
模型中是否需要
E_x? -
嗨@GregorThomas。不,谢谢
-
嗨@iago,我刚刚添加了可重现的数据。谢谢
标签: r linear-regression