【问题标题】:Inter-Cluster and Intra-Cluster distances集群间和集群内距离
【发布时间】:2014-08-25 16:37:37
【问题描述】:

我找到了以下关于集群间和集群内距离的公式,但我不确定我是否理解它们的工作原理。

集群间距离

上面的公式不应该有平方根吗?

集群间和集群内:

为什么会有从 N+1 开始的 j 索引?而不是从 1 到 N2?

哪一个是正确的?或者有什么等价的吗?或者我应该为簇间距离寻找质心之间的距离?看起来比较简单。簇内距离呢?

我发现维基百科公式http://en.wikipedia.org/wiki/Cluster_analysis#Internal_evaluation 更难理解。

我需要计算此距离以正确分组颜色以创建减少的调色板,因此我认为这些距离越准确,分组越准确(公式而不是质心之间的距离距离集群间)。向量是 3 维的(RGB 分量)。

【问题讨论】:

    标签: cluster-analysis


    【解决方案1】:

    很多算法并没有真正使用“距离”。

    例如,

    k-means 最小化 方差,这是您在此处看到的平方和。现在平方和 欧几里得距离的平方,所以可以说这个算法也试图最小化欧几里得距离;但是该算法的“自然”公式不使用欧几里得距离,而是使用平方和。如果我没记错的话,同样适用于 Ward 聚类,你应该使用方差而不是欧几里得距离来计算它。

    注意,如果你最小化 z^2,并且 z 不能为负,那么你也最小化了 z。

    另请参阅:https://stats.stackexchange.com/questions/95793/is-there-an-advantage-to-squaring-dissimilarities-when-using-ward-clustering

    【讨论】:

    • 我正在尝试实现 BIRCH 算法,我发现了这个 .ppt,它说我必须通过计算欧几里得和曼哈顿距离以及上面列出的距离来找到树中最近的条目。
    猜你喜欢
    • 1970-01-01
    • 2013-05-04
    • 1970-01-01
    • 2019-01-14
    • 2020-11-15
    • 2019-06-11
    • 1970-01-01
    • 2016-04-10
    • 1970-01-01
    相关资源
    最近更新 更多