【问题标题】:Features scaling and mean normalization in a sparse matrix稀疏矩阵中的特征缩放和均值归一化
【发布时间】:2014-03-19 11:45:50
【问题描述】:

在稀疏矩阵上执行特征缩放和均值归一化是个好主意吗?我有一个 70% 稀疏的矩阵。通常,特征缩放和均值归一化会提高算法性能,但在稀疏矩阵的情况下,会增加很多非零项

【问题讨论】:

  • 这样的问题不能有任何明确的答案。只需在您的情况下尝试一下,看看它是否更快......
  • @hivert “性能”是指准确性,而不是速度。当然不是更快。问题是如何让权衡变得有价值。

标签: machine-learning


【解决方案1】:

如果表示稀疏很重要,例如为了适应内存,那么您不能在表示本身中进行均值归一化,不。它变得完全密集并破坏了目的。

通常,您将平均归一化数学推入公式或计算的另一部分。或者您可以在访问元素时进行归一化,之前已经计算了均值和方差。

如果可能的话,您也可以选择不需要归一化的算法。

【讨论】:

    【解决方案2】:

    如果使用 scikit-learn,你可以如下:

    from sklearn.preprocessing import StandardScaler
    
    scaler = StandardScaler(with_mean=False)
    scaler.fit(data)
    

    如您在文档 here 中看到的那样,您将保持稀疏性的均值归零。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2013-09-25
      • 2012-09-06
      • 1970-01-01
      • 2015-11-28
      • 2018-10-02
      • 2022-11-23
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多