如何使用 k-means 聚类获得更多特征答案

【问题标题】：how to use k-means clustering for more features如何使用 k-means 聚类获得更多特征
【发布时间】：2019-02-25 07:35:30
【问题描述】：

我是机器学习的新手，现在我正在学习 k-means 聚类。我对此有很多疑问。我的 CSV 文件有 Mall_Customers

    CustomerID  Genre   Age Annual Income (k$)  Spending Score (1-100)
0   1            Male   19      15                39
1   2            Male   21      15                81
2   3            Female 20      16                6
3   4            Female 23      16                77
4   5            Female 31      17                40

我想对上面的 csv 文件执行 k-means 来预测谁在商场里花的钱更多。这里的功能是年收入和支出分数。所以我的模型给出二维的输出。如果假设我需要执行超过 2 个特征变量，那么我的模型是否会超过 2 维？

1 > 如何对超过 2 个特征执行 k-means 聚类？ 2 > 如果我的 csv 文件中有 5 个特征字段，如何减少特征数量？

【问题讨论】：

没有什么阻止 k-means 仅使用 2 个功能（实际上，它很少仅用于 2 个功能）。

标签： machine-learning k-means

【解决方案1】：

我会分两部分回答你的问题

如果您有超过 2 个特征，则 k 表示聚类发生在 n 维空间中，其中 n 是特征数。每个样本的向量中的维数会发生变化，无需更改算法或接近。
如果您想减少可视化功能的数量，您可以使用 PCA（主成分分析）来实现。这是一种无监督的降维技术。您可以阅读更多内容。

对于这两个，你可以使用 python sklearn 库。

【讨论】：