【发布时间】:2016-02-25 13:32:10
【问题描述】:
当 R 使用分类变量执行回归时,它实际上是虚拟编码。也就是说,省略了一个级别作为基础或参考,并且回归公式包括所有其他级别的虚拟变量。但是,R 选择了哪一个作为参考,以及我如何影响这个选择?
具有四个级别的示例数据(来自UCLA's IDRE):
hsb2 <- read.csv("http://www.ats.ucla.edu/stat/data/hsb2.csv")
summary(lm(write ~ factor(race), data = hsb2))
# level 1 is the reference level
hsb2.ordered <- hsb2[rev(order(hsb2$race)),]
summary(lm(write ~ factor(race), data = hsb2.ordered))
# level 1 is still the reference level
【问题讨论】:
标签: r regression categorical-data