集群：集群验证答案

【问题标题】：Clustering: Cluster validation集群：集群验证
【发布时间】：2013-08-20 23:00:35
【问题描述】：

我想对大型社交网络数据集使用一些聚类方法。问题是如何评估聚类方法。是的，我可以使用一些外部、内部和相关的集群验证方法。我使用标准化互信息（NMI）作为基于合成数据的集群验证的外部验证方法。我通过生成 5 个具有相同数量节点的集群以及每个集群内部的一些强连接链接和集群之间的弱链接来生成一些合成数据集，以检查聚类方法，然后我分析了该合成数据集上的光谱聚类和基于模块化的社区检测方法。我对现实世界的数据集使用具有最佳 NMI 的聚类，并检查算法的误差（成本函数），结果很好。我的成本函数测试方法是否良好？或者我也应该再次验证我的真实词集群？

谢谢。

【问题讨论】：

标签： testing cluster-analysis linear-algebra

【解决方案1】：

尝试不止一种措施。

集群验证措施有十几种，很难预测哪一种最适合某个问题。它们之间的区别还不是很清楚，所以最好多咨询一下。

另请注意，如果您不使用标准化度量，则基线可能会非常高。因此，这些衡量标准最有用的是说“结果 A 与结果 B 比结果 C 更相似”，但不应将其视为质量的绝对衡量标准。它们是相似度的相对度量。

【讨论】：

@AnonyMousse 感谢您的回答。很抱歉这么晚才回复你的回答。问题是如何从不同的索引中合并和得出结论（对于具有未知聚类结构的真实世界数据的内部）
不要试图将所有内容分解为一个数字。鞋码和眼睛颜色也是两个不同的东西，不能合理地组合成一个数字。
@AnonyMousse 感谢您的评论。我同意你的看法：）。但我只需要一个对所有索引都有良好结果的聚类数。那么，如何找到不同索引的点呢？你有什么想法吗？
内部索引只是衡量另一个统计属性。这根本不意味着结果比有用性更好。有用性不能用数学方法来捕捉。所以尝试不同的聚类结果，实际上更好，而不仅仅是在某些索引上得分更高。高索引值仍然是无用的。事实上，对于 k-means，当它用于离散化目的时，“太大”的 k 通常至少会起到同样的效果。
不要看数字。手动评估实际集群。得到的簇有用吗？你能解释它们吗？任何聚类，即使它的得分很高，也可能是无用的。