【问题标题】:How does KMeans algorithm plot points?KMeans 算法如何绘制点?
【发布时间】:2020-03-09 23:10:55
【问题描述】:

KMeans 算法如何处理用于聚类目的的数据点绘图?

例如,考虑 3 个具有许多特征的数据点。其中,一个特性如下: 值:

Length_of_Room:

  • 2.05
  • 2.35
  • 5.75

前 2 个条目是否会被放置在同一个集群中,因为它们的值彼此更接近(假设所有其他特征也相似)?

请帮帮我!

【问题讨论】:

  • “绘图”是什么意思? K-means 不绘图。它也只能处理 R^d 中的数据。所以一个特征可能只有一个值。您的工作是适当地转换数据以获取 R^d 中的向量。
  • @Anony-Mousse 我所说的绘图的意思是,数据集中的一行将被视为平面右侧的一个点。类似地,KMeans 获取数据集中的所有点并相应地对它们进行聚类。同样,对于 3 个单独的行或“点”,如果一个名为“Length_of_Room”的特征具有上述值,那么前 2 个点是否会彼此接近,因为这些值更接近。
  • 首先,Kmeans 不会像@Anony-Mousse 所说的那样“在计划中谋划”。重新阅读评论。其次,这将取决于您定义的距离。如果它是欧几里得,那么答案是(可能)是的,但对于某些人来说,它相当复杂......
  • @Alexis 只是为了澄清。所以如果我使用欧几里得距离,包含 [2.05, 2.35] 的点将属于同一个集群,而包含 [5.75] 的点将属于不同的集群,对吧?
  • 这取决于其他点和集群的数量。并不是因为两个点很接近,它们才会属于同一个簇。对于某些点,最近的点将位于不同的集群中。您可能想使用 sklearn 中的两个卫星数据集来查看这个...

标签: python machine-learning scikit-learn cluster-analysis k-means


【解决方案1】:

这个概念是正确的,即具有相似值的特征将根据它们的欧几里德距离聚集在一起。

要了解更多信息,请阅读:https://scikit-learn.org/stable/modules/clustering.html#k-means

仅供参考:要最小化的目标函数是:

【讨论】:

    猜你喜欢
    • 2020-07-19
    • 1970-01-01
    • 1970-01-01
    • 2012-06-07
    • 2022-09-28
    • 1970-01-01
    • 2022-01-10
    • 1970-01-01
    • 2017-08-08
    相关资源
    最近更新 更多