【问题标题】:how to use k-means clustering for more features如何使用 k-means 聚类获得更多特征
【发布时间】:2019-02-25 07:35:30
【问题描述】:

我是机器学习的新手,现在我正在学习 k-means 聚类。我对此有很多疑问。我的 CSV 文件有 Mall_Customers

    CustomerID  Genre   Age Annual Income (k$)  Spending Score (1-100)
0   1            Male   19      15                39
1   2            Male   21      15                81
2   3            Female 20      16                6
3   4            Female 23      16                77
4   5            Female 31      17                40

我想对上面的 csv 文件执行 k-means 来预测谁在商场里花的钱更多。这里的功能是年收入和支出分数。所以我的模型给出二维的输出。如果假设我需要执行超过 2 个特征变量,那么我的模型是否会超过 2 维?

1 > 如何对超过 2 个特征执行 k-means 聚类? 2 > 如果我的 csv 文件中有 5 个特征字段,如何减少特征数量?

【问题讨论】:

  • 没有什么阻止 k-means 仅使用 2 个功能(实际上,它很少仅用于 2 个功能)。

标签: machine-learning k-means


【解决方案1】:

我会分两部分回答你的问题

  1. 如果您有超过 2 个特征,则 k 表示聚类发生在 n 维空间中,其中 n 是特征数。每个样本的向量中的维数会发生变化,无需更改算法或接近。

  2. 如果您想减少可视化功能的数量,您可以使用 PCA(主成分分析)来实现。这是一种无监督的降维技术。您可以阅读更多内容。

对于这两个,你可以使用 python sklearn 库。

【讨论】:

    猜你喜欢
    • 2016-09-08
    • 2020-04-18
    • 2011-09-04
    • 2016-08-26
    • 2010-12-20
    相关资源
    最近更新 更多