【发布时间】:2019-01-25 14:31:10
【问题描述】:
为什么我们在多元线性回归模型中采用的虚拟变量比虚拟变量的总数少一个?
例如,如果模型包含 4 个虚拟变量,我们会更新特征向量以训练回归模型。 x = x[:, 1:4].
【问题讨论】:
标签: machine-learning linear-regression
为什么我们在多元线性回归模型中采用的虚拟变量比虚拟变量的总数少一个?
例如,如果模型包含 4 个虚拟变量,我们会更新特征向量以训练回归模型。 x = x[:, 1:4].
【问题讨论】:
标签: machine-learning linear-regression
然而,通过在回归模型中包含虚拟变量,人们应该 小心虚拟变量陷阱。虚拟变量陷阱是 自变量是多重共线性的场景 - a 两个或多个变量高度相关的场景;在 简单的术语可以从其他变量中预测一个变量。
假设您有一个简单的分类,例如性别,包括 «男性» 和 «女性» 类别。你得到两个虚拟变量«male»和«female»,它们可以是真或假。这简直是多余的,因为您可以从另一个预测一个。
在另一个示例中:当您有四个分类 A/B/C/D 时,您会得到四个虚拟变量。如果您知道该类不是 A、B 或 C,则您知道它必须是 D。因此,您可以而且应该删除一个虚拟变量。
从技术上讲,虚拟变量陷阱是自变量为multi-collinear 的场景 - 两个或多个变量高度相关。这将导致您的回归算法出现问题:
在这种情况下,多元回归的系数估计 可能会因模型的微小变化而发生不规律的变化,或 数据。
基线:当对具有 N 个可能值的分类变量进行建模时,您应该使用 N−1 个虚拟变量。
【讨论】: