【发布时间】:2015-07-18 16:43:11
【问题描述】:
我有一组数据聚类成 k 个组,每个聚类的最小大小约束为 m
我已经对数据进行了一些重新聚类。所以现在我得到了这组点,每个点都有一个或多个更好的集群,但不能单独切换,因为它会违反大小限制。
目标:最小化每个点到其聚类中心的距离总和。
服从:最小簇大小 m
我想找到一种算法来重新分配所有点而不违反约束,同时保证降低目标。
我想用 Graph 来表示点之间的成对关系。但我不确定如何进行重新分配,因为它存在大密集循环的可能性,并且我在多个集群之间交换多个点时迷失了方向。
我还创建了一个包含可能交换候选者的集群对列表,但仍然找不到优化目标的方法。
我希望我解释了我的情况。我是算法新手,不熟悉行话和规则。如果需要任何其他信息,请告诉我。
我做了很多研究, 我已经尝试过本文中的算法,但没有成功,因为隶属度的总和不一定与集群大小相关。 Clustering with Size Constraints
我还阅读了关于 SO 的其他类似帖子,但没有找到我可以实现的详细算法。
我尝试构建一个加权有向图,顶点表示集群,从 A 到 B 的边表示集群 A 中愿意重新定位到集群 B 的点。权重是点的总和
但是根据我的数据,所有节点都处于一个具有非常密集边缘的巨大循环中。由于我的经验有限,我仍然无法弄清楚如何在这么多集群之间重新分配。任何建议表示赞赏!
类似的东西。
【问题讨论】:
-
在 CrossValidated 上查看 this。
-
我实际上尝试了论文中的算法。也许我做错了什么。但不知何故,我没有得到想要的结果。由于成员的总和与集群大小无关。例如 u_{1} = [0.45, 0.15, 0.4], u_{2} = [0.45, 0.3, 0.25] 和 u_{3} = [0.1, 0.55, 0.35] 集群仍然不平衡。
-
“尺寸限制”太不具体了。你的意思是stackoverflow.com/questions/5452576/…stackoverflow.com/questions/8796682/…吗?
标签: algorithm cluster-analysis