【问题标题】:K-Means VS K-Modes? (text clustering)K-Means VS K-模式? (文本聚类)
【发布时间】:2019-04-06 13:10:22
【问题描述】:

我了解 K-Means 可用于通过矢量化和查找文档的 TF-IDF 值来对文档进行聚类。除了分类/连续变量定义之外,我们何时/如何决定哪一个 (K-Means or K-modes) 可能会产生更好的结果?是真的能给出更好的结果还是要根据具体情况?

我已经使用 tf-idf 进行了 KMeans 聚类,它们似乎给出了不错的结果,但我找不到任何材料来比较两者以冒险进入 K-Modes。互联网上关于 k-means+tf-idf 的文本聚类也有很多,而在 k-modes 上则不多。任何帮助表示赞赏!

【问题讨论】:

    标签: algorithm cluster-analysis k-means tf-idf unsupervised-learning


    【解决方案1】:

    K-modes 实际上只适用于分类数据。不适用于 sparse 数值数据,例如词袋或 tf-idf 向量。

    考虑模式:它通常不会给出全零向量吗?然后你所有的集群手段都会消失。

    根据我的经验,文本上的 k-means 也非常很糟糕,除了你的数据。因为它无法处理异常值,并且文本数据中充满了异常值文档。

    【讨论】:

      猜你喜欢
      • 2016-08-14
      • 2015-04-11
      • 2018-01-18
      • 2017-03-16
      • 2011-08-13
      • 2013-08-08
      • 2013-02-14
      • 2018-01-14
      • 2011-04-11
      相关资源
      最近更新 更多