K-Means VS K-模式？（文本聚类）答案

【问题标题】：K-Means VS K-Modes? (text clustering)K-Means VS K-模式？（文本聚类）
【发布时间】：2019-04-06 13:10:22
【问题描述】：

我了解 K-Means 可用于通过矢量化和查找文档的 TF-IDF 值来对文档进行聚类。除了分类/连续变量定义之外，我们何时/如何决定哪一个 (K-Means or K-modes) 可能会产生更好的结果？是真的能给出更好的结果还是要根据具体情况？

我已经使用 tf-idf 进行了 KMeans 聚类，它们似乎给出了不错的结果，但我找不到任何材料来比较两者以冒险进入 K-Modes。互联网上关于 k-means+tf-idf 的文本聚类也有很多，而在 k-modes 上则不多。任何帮助表示赞赏！

【问题讨论】：

【解决方案1】：

K-modes 实际上只适用于分类数据。不适用于 sparse 数值数据，例如词袋或 tf-idf 向量。

考虑模式：它通常不会给出全零向量吗？然后你所有的集群手段都会消失。

根据我的经验，文本上的 k-means 也非常很糟糕，除了你的数据。因为它无法处理异常值，并且文本数据中充满了异常值文档。

【讨论】：