我应该为 knn 标准化还是标准化我的数据集？答案

【问题标题】：Should I normalize or standardize my dataset for knn?我应该为 knn 标准化还是标准化我的数据集？
【发布时间】：2019-07-31 02:07:45
【问题描述】：

我尝试将 knn 用于分类任务，我的数据集包含 热编码的分类特征、价格等数字特征以及 BoW(CountVectorizer) 我的文本列的向量。

我知道 knn 会受到缩放的影响。所以我很困惑在这里使用什么？

from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import Normalizer
from sklearn.preprocessing import normalize

【问题讨论】：

StandardScaler 对于数字特征应该足够了。
@SergeyBushmanov 价格列中的许多行都是零？我还能使用standardscaler进行标准化吗？
您观察到许多价格为零可能会导致您使用其他特征预处理管道，但一般来说，可以将StandardScaler 应用于具有不同比例的数值特征。这对 KNN 很重要
@SergeyBushmanov 我有一个小问题。你提到只标准化我的数字特征，但我已经在我的 BoW 特征上应用了 PCA，我正在考虑是否应该将它们与数字特征一起标准化并省略分类特征。
BoW 已经是表现良好的功能。我猜你不需要标准化它们。但是，如果您愿意，您可以随时交叉验证这是否有意义。

【解决方案1】：

我的建议是MinMaxScaler

其中一个主要原因是您的价格等特征不能有负值，并且正如您所提到的，它可能是稀疏的。

来自文档：

使用这种缩放的动机包括对非常小的鲁棒性特征的标准偏差并在稀疏中保留零条目数据。

同时，如果你的数值变量有很大的差异，那么选择RobustScaler 或StandardScaler。

您不必缩放一个热门编码功能。

对于 BoW，保持数据的稀疏性很重要。如果您应用 StandardScaler，您将失去稀疏性。你一定要选择 MinMaxScaler。另一种选择是使用TfidfVectorizer，默认情况下它会进行 l2 标准化。

【讨论】：

我能知道你所说的保持数据的稀疏性是什么意思吗？实际上，我已经在我的 BoW 上使用了 PCA 并转换为更少的维度。那么我现在可以对其应用缩放还是让它成为现实。
preserving the sparsity of the data 表示特征中的零点即使在标准化之后也会保持为零。稀疏性仅仅意味着具有较少数量的非零值。 BoW 通常有很多零，因为每个文档都不包含词汇表中的所有单词。