【发布时间】:2011-09-30 17:38:19
【问题描述】:
我正在尝试在一组高维数据点(大约 50 维)上应用 k-means,并且想知道是否有任何实现可以找到最佳集群数量。
我记得在某处读到,算法通常这样做的方式是最大化集群间距离和最小化集群内距离,但我不记得我在哪里看到的。如果有人能指出任何讨论这个问题的资源,那就太好了。我目前正在将 SciPy 用于 k-means,但任何相关的库也可以。
如果有其他方法可以实现相同或更好的算法,请告诉我。
【问题讨论】:
-
这可能更适合Theoretical Computer Science Stack Exchange,因为它与其说是关于实现的问题,不如说是关于理论的问题。
-
我在这里用六种方法(使用
R)回答了一个类似的问题:stackoverflow.com/a/15376462/1036500 -
也许你应该找到具有减法聚类的聚类中心?该算法的基本概念在:link 它是用于 matlab 但应该足够好。
标签: python machine-learning data-mining k-means