【发布时间】:2020-03-09 23:10:55
【问题描述】:
KMeans 算法如何处理用于聚类目的的数据点绘图?
例如,考虑 3 个具有许多特征的数据点。其中,一个特性如下: 值:
Length_of_Room:
- 2.05
- 2.35
- 5.75
前 2 个条目是否会被放置在同一个集群中,因为它们的值彼此更接近(假设所有其他特征也相似)?
请帮帮我!
【问题讨论】:
-
“绘图”是什么意思? K-means 不绘图。它也只能处理 R^d 中的数据。所以一个特征可能只有一个值。您的工作是适当地转换数据以获取 R^d 中的向量。
-
@Anony-Mousse 我所说的绘图的意思是,数据集中的一行将被视为平面右侧的一个点。类似地,KMeans 获取数据集中的所有点并相应地对它们进行聚类。同样,对于 3 个单独的行或“点”,如果一个名为“Length_of_Room”的特征具有上述值,那么前 2 个点是否会彼此接近,因为这些值更接近。
-
首先,Kmeans 不会像@Anony-Mousse 所说的那样“在计划中谋划”。重新阅读评论。其次,这将取决于您定义的距离。如果它是欧几里得,那么答案是(可能)是的,但对于某些人来说,它相当复杂......
-
@Alexis 只是为了澄清。所以如果我使用欧几里得距离,包含 [2.05, 2.35] 的点将属于同一个集群,而包含 [5.75] 的点将属于不同的集群,对吧?
-
这取决于其他点和集群的数量。并不是因为两个点很接近,它们才会属于同一个簇。对于某些点,最近的点将位于不同的集群中。您可能想使用 sklearn 中的两个卫星数据集来查看这个...
标签: python machine-learning scikit-learn cluster-analysis k-means