【发布时间】:2021-05-10 06:59:26
【问题描述】:
我正在为大型数据集进行聚类(kmeans)。现在想将新数据添加到现有集群中。
这是我的想法:
-
计算一个新数据点与所有质心的欧几里得距离,并找出这些距离中的最小值。
-
检查最小距离是否小于阈值。如果为真,我们将新数据点分配给相应的集群。然后,更新该集群的集群中心。
-
如果为 False,则创建一个新集群并将新数据点分配为其中心。此外,数据点成为集群的一部分。
在第 2 步中,我应该使用什么阈值。请分享您的想法。
我在想,通过计算每个集群的集群内距离并取它们的最大距离将是我的阈值。
我在关注文章here
【问题讨论】:
标签: python-3.x machine-learning data-science cluster-analysis k-means