【问题标题】:K-means with cosine distance具有余弦距离的 K 均值
【发布时间】:2014-01-22 10:14:11
【问题描述】:

我必须使用 k-means 编写程序集群。我有 TF-IDF 和看起来像这样的余弦相似度

1.00    0.17    0.46    0.40    0.89
0.17    1.00    0.83    0.60    0.58
0.46    0.83    1.00    0.30    0.67
0.40    0.60    0.30    1.00    0.73
0.89    0.58    0.67    0.73    1.00

我有 2 均值的输出,它与第一个质心分为两组:D1 和 D2,因为它们的相似性最低(0.17)所以组是 {D1, D5} 和 {D2, D3, D4}但是如果我必须选择 3-means 怎么办?那么我该如何选择我的起始质心?

还有一件事我不明白,我正在使用我的 TF-IDFS,如下所示:

0.2 0.4 0.8 0.0 0.2
0.0 0.4 0.2 0.8 0.2
0.8 0.0 0.2 0.4 0.4

并为我的小组制作新的质心

组 1:T1- 0.2 T2- 0.1 T3- 0.6 组2:T1- 0.4 T2- 0.4(6) T3-0.2

现在我该怎么做才能再次将我的文档分配给新的质心?我现在必须计算质心和文档之间的余弦吗?以及我把它放在那里的 cos 值是否比 group centroid 更高?

【问题讨论】:

    标签: machine-learning distance cluster-analysis k-means cosine-similarity


    【解决方案1】:

    说真的,你把事情搞混了。

    对于 k-means,您不需要成对相似度表。它从不比较两个对象!

    还查看有关 k-means 的许多问题,特别是为什么在 k-means 中使用其他距离而不是平方欧几里得距离是危险的(因为 mean 可能不适用于其他距离函数) .虽然我相信它可以证明在相当可用的条件下它也适用于余弦距离,但我还没有看到为什么以及何时保证收敛的证据。我知道的证明只对(平方)欧几里得距离有效。)

    【讨论】:

    • 平均值可能不适用于其他距离是什么意思?
    • 看一下方差的定义,算术平均值是均值的最优最小二乘估计。任何有关估计的书籍都应涵盖基本的统计知识。
    • 最简单的:如果平均值为 0,则不再定义余弦距离。
    【解决方案2】:

    D1 和 D2 聚类,因为它们的相似度最高,距离最低。相似度不低。

    您最初选择的质心与 2 质心的情况相同。正确的?你在那里做什么?您使用 3 个随机向量,或者选择 3 个数据点作为初始质心。

    你的第二部分没有意义。您可以通过将新文档分配给最近的集群来分配它们。如果您愿意,可以从那里继续迭代。

    【讨论】:

      猜你喜欢
      • 2014-09-30
      • 2015-06-02
      • 2017-07-10
      • 2017-12-12
      • 2017-06-25
      • 1970-01-01
      • 2021-09-09
      • 2013-02-24
      • 2016-12-05
      相关资源
      最近更新 更多