【问题标题】:Can k-means clustering error ever increase?k-means 聚类误差会增加吗?
【发布时间】:2014-04-01 19:15:59
【问题描述】:

我已经为 20 维直方图实现了 k-means 聚类算法。它似乎在二维直方图上运行良好。

有时,误差平方和会在一次迭代后略微增加。这是正常现象,还是潜在错误的迹象?

如果可以增加 SSE,谁能提供一个我可以想象的例子?

【问题讨论】:

    标签: cluster-analysis


    【解决方案1】:

    分配不得增加。

    好像你在某个地方有错误。也许您使用的不是平方欧几里得距离?

    SSE = 平方误差之和,而不是距离之和或其他基于距离的东西。

    【讨论】:

    • 谢谢。我预计会是这样,但我认为我应该在涉水之前检查一下。我一直将 SSE 计算为从质心到集群中每个点的距离的平方和,并将整体 SSE 计算为每个点的总和。这是错的吗?如果是这样,我应该测量什么?
    • 测量每个维度的平方差之和。不要想得太远,这是误导。 k-means 最小化方差总和SSE = sum_x min_c sum_d (x_d - c_d)^2 其中x 是数据点,c 是聚类中心,d 是维度。
    • 这就是我所说的距离。以后我会使用正确的术语。我必须弄清楚为什么 SSE 会增加 - 显然我在某个地方遇到了错误。非常感谢您的帮助。
    • 很多人在某处添加sqrt,例如欧几里得距离,或者一个额外的平方项......如果我没记错的话,欧几里得距离的总和不是 k-means 总是减少:假设我有两个距离为 2 和 2 的对象。重新分配这些对象以使距离变为 4 和 1 会增加距离的绝对总和(从 4 到 5),但会减少平方和(17 至 8)。所以优化欧几里得距离和优化方差是不一样的。
    猜你喜欢
    • 2015-04-11
    • 2011-08-13
    • 2013-08-08
    • 2013-02-14
    • 2018-01-14
    • 2014-04-13
    • 2018-06-21
    • 2018-02-10
    • 2011-04-11
    相关资源
    最近更新 更多