【发布时间】:2013-07-03 00:44:30
【问题描述】:
我阅读了k-means++: The Advantages of Careful Seeding 的论文,并不太明白提供的算法是:
“令 D(x) 表示从数据点 x 到我们已经选择的最近中心的最短距离。
1a。随机均匀地选择一个初始中心c1 来自 X。
1b。选择下一个中心 ci,选择 ci = x' ∈ X 概率为 (D(x')^2) / Sum_of(D(x)^2)
1c。重复步骤 1b,直到我们总共选择了 k 个中心。
2-4。继续使用标准的 k-means 算法"
(最好看上面链接中的算法)
尤其是步骤 1b。 “以概率 (D(x')^2) / Sumof(D(x)^2) 选择 ci = x' ∈ X”是什么意思。他们的意思是选择比例最大的元素吗?以及如何执行这样的计算才能导致选择最佳质心?
【问题讨论】:
-
不确定为什么会收到 -1。
标签: algorithm