【发布时间】:2011-12-03 19:36:42
【问题描述】:
我想知道我可以将哪种种子选择方法应用于 K-means 算法。谷歌搜索没有那么有用。有什么建议吗?
【问题讨论】:
-
看两遍 k-means:k-means 是一个随机样本,使用这些中心作为批次的种子。见should-we-use-k-means++。
标签: random machine-learning cluster-analysis k-means
我想知道我可以将哪种种子选择方法应用于 K-means 算法。谷歌搜索没有那么有用。有什么建议吗?
【问题讨论】:
标签: random machine-learning cluster-analysis k-means
种子取决于域。例如,如果您的数据项是单词,那么您的种子应该是最常见的单词。否则,您可以聚类一个小样本并将其用作种子。
这是一个更复杂的算法示例:
k-Means 的单程种子选择算法。 K. Karteeka Pavan, Allam Appa Rao, A.V. Dattatreya Rao 和 G.R.斯里达尔。 计算机科学学报 6 (1): 60-66, 2010.pdf
【讨论】:
Google 中的“监督”k 表示聚类,k++ 表示....还指定您的性能需求(您的 k 是多少?有多少输入点?)
一般来说,几千个点可以很容易地聚集到一个朴素的 k 意味着算法实现......所以我会先尝试。
另外,如果您不确定 K 应该是多少,请先尝试 MCL 聚类以获得良好的估计值。
【讨论】: