【问题标题】：Choosing Clustering Method based on results根据结果选择聚类方法
【发布时间】：2013-01-17 20:04:17
【问题描述】：

我在论文中使用 WEKA，并且有超过 1000 行数据。该数据库包括人口统计信息（年龄、位置、状态等），然后是产品名称（值 1 或 0）。最终结果是一个推荐系统。我使用了两种聚类方法，K-Means 和DBScan。

使用 K-means 时，我尝试了 3 个不同数量的集群，而使用 DBscan 我选择了 3 个不同的 epsilon（Epsilon 3 = 48 个集群，忽略了 17% 的数据，Epsilone 2.5 = 19 个集群，而集群 0 包含 229 个项目忽略 6%。）这意味着我对相同的数据有 6 个不同的聚类结果。

如何选择最适合我的数据的内容？

【问题讨论】：

标签： cluster-analysis weka recommendation-engine k-means dbscan

【解决方案1】：

什么是“最好的”？

正如一些聪明人注意到的那样：

聚类的有效性通常在旁观者的眼中

聚类没有客观上“更好”，或者您没有进行聚类分析。

即使结果实际上在某些数学度量上“更好”，例如分离、轮廓，甚至在使用使用标签的监督评估时 - 它仍然只是在优化某些数学目标方面更好，不适合您的用例。

K-means 找到给定 k 的局部最优平方和分配。（如果增加 k，则存在更好的分配！） DBSCAN（实际上全大写是正确的）总是为给定的 MinPts/Epsilon 组合找到最佳的密度连接分量。然而，两者都只是针对某些数学标准进行优化。 除非此标准符合您的要求，否则毫无价值。所以没有最好的，直到你知道你需要什么。但是，如果您知道自己需要什么，就不需要进行聚类分析。

那该怎么办？

尝试不同的算法和不同的参数，用你的领域知识分析输出，如果它们能帮助你解决你试图解决的问题。如果他们帮助您解决问题，那么他们很好。如果他们没有帮助，请再试一次。

随着时间的推移，你会积累一些经验。例如，如果平方和对您的域没有意义，请不要使用 k-means。如果您的数据没有有意义的密度，请不要使用基于密度的聚类，例如 DBSCAN。并不是这些算法失败了。他们只是不解决你的问题，他们解决了一个你不感兴趣的不同问题。他们可能真的很擅长解决其他问题......

【讨论】：