【发布时间】:2013-04-09 10:18:30
【问题描述】:
我的任务是开发一个回归模型来观察不同课程的学生注册情况。这是一个非常好的、干净的数据集,其中注册数很好地遵循泊松分布。我在 R 中拟合了一个模型(同时使用 GLM 和零膨胀泊松。)得到的残差似乎是合理的。
但是,我被指示将学生人数更改为“比率”,计算方式为学生/学校人口(每所学校都有自己的人口。))现在这不再是计数变量,而是之间的比例0 和 1。这被认为是项目中的“入学比例”。
这个“比率”(学生/人口)不再是泊松,但也肯定不正常。所以,我对适当的分布以及表示它的后续模型有点迷茫。
对数正态分布似乎很适合这个速率参数,但是我有很多 0 值,所以它实际上并不适合。
对这个新参数的最佳分布形式有什么建议,以及如何在 R 中对其建模?
谢谢!
【问题讨论】:
-
我认为这是使用曝光/偏移变量 (en.wikipedia.org/wiki/…) 的情况。而且,也许,一个问题stats.stackexchange.com
-
交叉发布到 r-help:thread.gmane.org/gmane.comp.lang.r.general/291112
标签: r regression glm poisson