【问题标题】:Using OLS regression on binary outcome variable对二元结果变量使用 OLS 回归
【发布时间】:2026-01-10 12:20:02
【问题描述】:
我之前被告知——出于完全合理的原因——当结果变量是二元的(即是/否、真/假、赢/输等)时,不应运行 OLS 回归。但是,我经常阅读经济学/其他社会科学领域的论文,其中研究人员对二元变量进行 OLS 回归并解释系数,就像对连续结果变量一样。关于这个的几个问题:
- 他们为什么不运行逻辑回归?使用 logit 模型有什么缺点/限制吗?例如,在经济学中,我经常看到将 OLS 回归用于二元变量而不是 logit 的论文。 logit 只能在某些情况下使用吗?
- 一般来说,什么时候可以对序数数据运行 OLS 回归?如果我有一个变量可以捕获“每周调查受访者做 X 的次数”,我可以在任何情况下将它用作线性回归中的因变量吗?我经常在文献中看到这一点,尽管我们总是在介绍性统计/计量经济学中被告知 OLS 回归中的结果变量应该是连续的。
【问题讨论】:
标签:
regression
data-science
linear-regression
logistic-regression
economics
【解决方案1】:
-
将 OLS 应用于二元结果的应用称为线性概率模型。与逻辑模型相比,LPM 在实施和解释方面具有优势,使其成为进行影响分析的研究人员的一个有吸引力的选择。在 LPM 中,参数代表平均边际效应,而参数代表逻辑回归中的对数优势比。要计算逻辑回归中的平均边际效应,我们需要计算每个数据点的导数,然后
计算这些导数的平均值。虽然逻辑回归和 LPM 通常会产生相同的预期平均影响估计值[1],但研究人员更喜欢 LPM 来估计处理影响。
-
一般来说,是的,我们绝对可以将 OLS 应用于序数结果。与前一种情况类似,将 OLS 应用于二元或有序结果会导致违反 OLS 的假设。然而,在计量经济学中,他们认为违反这些假设的实际影响很小,并且解释 OLS 的简单性超过了有序 logit 或 probit 模型的技术正确性,尤其是当序数结果看起来准正常时。
参考:
[1] 德克,J. (2014)。使用线性概率模型估计对随机对照试验中二元结果的影响。 Mathematica 政策研究。