【问题标题】:Improving k-means clustering改进 k-means 聚类
【发布时间】:2011-06-06 14:12:14
【问题描述】:

我关于计算机视觉的讲义提到,如果我们知道集群的标准差,可以提高 k-means 聚类算法的性能。为何如此?

我的想法是,我们可以首先通过基于直方图的分割来使用标准偏差来提出更好的初始估计。你怎么看?感谢您的帮助!

【问题讨论】:

    标签: algorithm machine-learning computer-vision k-means


    【解决方案1】:

    您的讲师可能会想到2002 paper by Veenman et al。基本思想是您设置每个集群中允许的最大方差。您从与数据点一样多的集群开始,然后通过

    “进化”集群
    • 如果结果集群的方差低于阈值,则合并相邻集群
    • 如果集群的方差高于阈值,则隔离“远”的元素
    • 或在相邻簇之间移动一些元素,如果它减少平方误差的总和

    (这种演变充当全局优化过程,并防止初始分配集群意味着您在 k-means 中的不良后果)

    总而言之,如果你知道方差,你就知道集群应该有多大的变化,所以更容易例如检测异常值(通常应将其放入单独的集群中)。

    【讨论】:

    • 优秀的答案!最后一个问题-异常值通常会被制成自己的新集群,对吗?顺便说一句,哈哈@ ang mo——我以前去过新加坡,我知道“ang mo”是什么意思! :)
    • 是的:异常值将使用隔离运算符放入单独的集群中(或者它们不会首先合并)
    猜你喜欢
    • 2015-04-11
    • 2016-07-28
    • 2011-08-13
    • 2013-08-08
    • 2013-02-14
    • 2018-01-14
    • 2011-04-11
    • 2016-12-16
    • 2018-02-27
    相关资源
    最近更新 更多