使用 spark Mllib 进行 k 均值聚类答案

【问题标题】：k-means clustering using spark Mlib使用 spark Mllib 进行 k 均值聚类
【发布时间】：2017-03-07 10:06:06
【问题描述】：

我想对如下数据集进行 K 均值聚类

(OA,mobileNO,Text是csv的Header)

OA|mobileNO|文字
575756|918050173932|sekhar 添加了一张照片。请参阅https://fb.com/l/
RM-444555|91879225717|Dominos 买 1 比萨送 1
VM-OLAMNY|919160281882|在 OLA 出租车中添加了 rs.10

像上面一样，我有一个庞大的数据集，我如何对数据进行聚类并找到其中的隐藏模式。（例如：哪个 OA 正在发送 cab 相关消息，哪个 OA 正在发送 fb 通知等）

我必须根据他们发送的文本来获取 OA 集群

集群 1：出租车相关的 OA 集群 2：fb 通知等

K-means 聚类仅适用于数值数据吗？

【问题讨论】：

过于宽泛，请具体说明您的问题，到目前为止您尝试了什么？
试图通过仅获取文本文件来进行聚类。通过标记化、去除停用词和计算 TF-IDF 权重。我们如何使用 TF-IDF 权重作为 KMeans 的输入。在 spark 文档中解释了数字数据的聚类。这里我有所有文本字段。
kmeans 仅适用于数字向量，全球所有可用框架都是这种情况

标签： apache-spark machine-learning data-mining k-means text-classification

【解决方案1】：

k-means 仅适用于连续数值变量。

这是有原因的：在其他数据上，mean 没有意义，所以 k-means 聚类没有意义。

【讨论】：

能否请您提供一些参考资料。
参考什么？ mean 的属性（因为这就是问题所在）？最小二乘估计？
“k-means 只能在连续数值变量上可靠地工作”从哪里来。我已经将 k-means 用于离散变量并且效果很好。
您是否将其与其他方法进行了比较？ k-means 不会“崩溃”，但在此类数据上，ghe 结果通常不比 random 凸分区好。如果您将 k-means 聚类和随机凸分区呈现给用户并进行 A/B 测试，那么随机也一样好。