具有余弦距离的 K 均值答案

【问题标题】：K-means with cosine distance具有余弦距离的 K 均值
【发布时间】：2014-01-22 10:14:11
【问题描述】：

我必须使用 k-means 编写程序集群。我有 TF-IDF 和看起来像这样的余弦相似度

1.00    0.17    0.46    0.40    0.89
0.17    1.00    0.83    0.60    0.58
0.46    0.83    1.00    0.30    0.67
0.40    0.60    0.30    1.00    0.73
0.89    0.58    0.67    0.73    1.00

我有 2 均值的输出，它与第一个质心分为两组：D1 和 D2，因为它们的相似性最低（0.17）所以组是 {D1, D5} 和 {D2, D3, D4}但是如果我必须选择 3-means 怎么办？那么我该如何选择我的起始质心？

还有一件事我不明白，我正在使用我的 TF-IDFS，如下所示：

0.2 0.4 0.8 0.0 0.2
0.0 0.4 0.2 0.8 0.2
0.8 0.0 0.2 0.4 0.4

并为我的小组制作新的质心

组 1：T1- 0.2 T2- 0.1 T3- 0.6 组2：T1- 0.4 T2- 0.4(6) T3-0.2

现在我该怎么做才能再次将我的文档分配给新的质心？我现在必须计算质心和文档之间的余弦吗？以及我把它放在那里的 cos 值是否比 group centroid 更高？

【问题讨论】：

标签： machine-learning distance cluster-analysis k-means cosine-similarity

【解决方案1】：

说真的，你把事情搞混了。

对于 k-means，您不需要成对相似度表。它从不比较两个对象！

还查看有关 k-means 的许多问题，特别是为什么在 k-means 中使用其他距离而不是平方欧几里得距离是危险的（因为 mean 可能不适用于其他距离函数） .虽然我相信它可以证明在相当可用的条件下它也适用于余弦距离，但我还没有看到为什么以及何时保证收敛的证据。我知道的证明只对（平方）欧几里得距离有效。）

【讨论】：

平均值可能不适用于其他距离是什么意思？
看一下方差的定义，算术平均值是均值的最优最小二乘估计。任何有关估计的书籍都应涵盖基本的统计知识。
最简单的：如果平均值为 0，则不再定义余弦距离。

【解决方案2】：

D1 和 D2 聚类，因为它们的相似度最高，距离最低。相似度不低。

您最初选择的质心与 2 质心的情况相同。正确的？你在那里做什么？您使用 3 个随机向量，或者选择 3 个数据点作为初始质心。

你的第二部分没有意义。您可以通过将新文档分配给最近的集群来分配它们。如果您愿意，可以从那里继续迭代。

【讨论】：