稀疏矩阵中的特征缩放和均值归一化答案

【问题标题】：Features scaling and mean normalization in a sparse matrix稀疏矩阵中的特征缩放和均值归一化
【发布时间】：2014-03-19 11:45:50
【问题描述】：

在稀疏矩阵上执行特征缩放和均值归一化是个好主意吗？我有一个 70% 稀疏的矩阵。通常，特征缩放和均值归一化会提高算法性能，但在稀疏矩阵的情况下，会增加很多非零项

【问题讨论】：

【解决方案1】：

如果表示稀疏很重要，例如为了适应内存，那么您不能在表示本身中进行均值归一化，不。它变得完全密集并破坏了目的。

通常，您将平均归一化数学推入公式或计算的另一部分。或者您可以在访问元素时进行归一化，之前已经计算了均值和方差。

如果可能的话，您也可以选择不需要归一化的算法。

【讨论】：

【解决方案2】：

如果使用 scikit-learn，你可以如下：

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler(with_mean=False)
scaler.fit(data)

如您在文档 here 中看到的那样，您将保持稀疏性的均值归零。

【讨论】：