【问题标题】:Should I normalize or standardize my dataset for knn?我应该为 knn 标准化还是标准化我的数据集?
【发布时间】:2019-07-31 02:07:45
【问题描述】:

我尝试将 knn 用于分类任务,我的数据集包含 热编码的分类特征价格等数字特征以及 BoW(CountVectorizer) 我的文本列的向量。

我知道 knn 会受到缩放的影响。所以我很困惑在这里使用什么?

from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import Normalizer
from sklearn.preprocessing import normalize

【问题讨论】:

  • StandardScaler 对于数字特征应该足够了。
  • @SergeyBushmanov 价格列中的许多行都是零?我还能使用standardscaler进行标准化吗?
  • 您观察到许多价格为零可能会导致您使用其他特征预处理管道,但一般来说,可以将StandardScaler 应用于具有不同比例的数值特征。这对 KNN 很重要
  • @SergeyBushmanov 我有一个小问题。你提到只标准化我的数字特征,但我已经在我的 BoW 特征上应用了 PCA,我正在考虑是否应该将它们与数字特征一起标准化并省略分类特征。
  • BoW 已经是表现良好的功能。我猜你不需要标准化它们。但是,如果您愿意,您可以随时交叉验证这是否有意义。

标签: python python-3.x machine-learning scikit-learn knn


【解决方案1】:

我的建议是MinMaxScaler

其中一个主要原因是您的价格等特征不能有负值,并且正如您所提到的,它可能是稀疏的。

来自文档:

使用这种缩放的动机包括对非常小的鲁棒性 特征的标准偏差并在稀疏中保留零条目 数据。

同时,如果你的数值变量有很大的差异,那么选择RobustScalerStandardScaler

您不必缩放一个热门编码功能。

对于 BoW,保持数据的稀疏性很重要。如果您应用 StandardScaler,您将失去稀疏性。你一定要选择 MinMaxScaler。 另一种选择是使用TfidfVectorizer,默认情况下它会进行 l2 标准化。

【讨论】:

  • 我能知道你所说的保持数据的稀疏性是什么意思吗?实际上,我已经在我的 BoW 上使用了 PCA 并转换为更少的维度。那么我现在可以对其应用缩放还是让它成为现实。
  • preserving the sparsity of the data 表示特征中的零点即使在标准化之后也会保持为零。稀疏性仅仅意味着具有较少数量的非零值。 BoW 通常有很多零,因为每个文档都不包含词汇表中的所有单词。
猜你喜欢
  • 1970-01-01
  • 2010-10-30
  • 2020-05-06
  • 2010-10-26
  • 2019-10-22
  • 2015-06-15
  • 1970-01-01
  • 2017-11-04
  • 2023-03-26
相关资源
最近更新 更多