【发布时间】:2015-11-05 14:00:10
【问题描述】:
作为我任务的一部分,我正在处理几个数据集,并通过线性回归找到它们的训练错误。我想知道标准化是否对训练错误有任何影响?我的相关性和 RMSE 在标准化之前和之后的数据集是相等的。
谢谢,
【问题讨论】:
标签: machine-learning normalization rapidminer
作为我任务的一部分,我正在处理几个数据集,并通过线性回归找到它们的训练错误。我想知道标准化是否对训练错误有任何影响?我的相关性和 RMSE 在标准化之前和之后的数据集是相等的。
谢谢,
【问题讨论】:
标签: machine-learning normalization rapidminer
很容易证明,对于线性回归,如果您只是通过缩放来转换输入数据(a;这同样适用于平移,这意味着任何形式的转换 X' = aX + b 对于真正的 @987654323 @ 具有相同的属性)。
X' = aX
w = (X^TX)X^Ty
w' = (aX^TaX)^-1 aX^Ty
w' = 1/a w
这样
X^Tw = 1/a aX^T w = aX^T 1/a w = X'^Tw'^T
因此,计算误差的投影在缩放前后完全相同,因此任何类型的损失函数(独立于x)都会产生完全相同的结果。
但是,如果您缩放输出变量,那么错误将会改变。此外,如果您以更复杂的方式标准化您的数据集,然后只需乘以一个数字(例如 - 通过白化或几乎任何旋转),那么您的结果将取决于预处理。如果您使用正则化线性回归(岭回归),那么甚至按常数缩放输入数据(因为它改变了正则化参数的“含义”)。
【讨论】: