【问题标题】:k-means clustering using spark Mlib使用 spark Mllib 进行 k 均值聚类
【发布时间】:2017-03-07 10:06:06
【问题描述】:

我想对如下数据集进行 K 均值聚类

(OA,mobileNO,Text是csv的Header)

OA|mobileNO|文字
575756|918050173932|sekhar 添加了一张照片。请参阅https://fb.com/l/
RM-444555|91879225717|Dominos 买 1 比萨送 1
VM-OLAMNY|919160281882|在 OLA 出租车中添加了 rs.10

像上面一样,我有一个庞大的数据集,我如何对数据进行聚类并找到其中的隐藏模式。 (例如:哪个 OA 正在发送 cab 相关消息,哪个 OA 正在发送 fb 通知等)

我必须根据他们发送的文本来获取 OA 集群

集群 1:出租车相关的 OA 集群 2:fb 通知等

K-means 聚类仅适用于数值数据吗?

【问题讨论】:

  • 过于宽泛,请具体说明您的问题,到目前为止您尝试了什么?
  • 试图通过仅获取文本文件来进行聚类。通过标记化、去除停用词和计算 TF-IDF 权重。我们如何使用 TF-IDF 权重作为 KMeans 的输入。在 spark 文档中解释了数字数据的聚类。这里我有所有文本字段。
  • kmeans 仅适用于数字向量,全球所有可用框架都是这种情况

标签: apache-spark machine-learning data-mining k-means text-classification


【解决方案1】:

k-means 仅适用于连续数值变量

这是有原因的:在其他数据上,mean 没有意义,所以 k-means 聚类没有意义。

【讨论】:

  • 能否请您提供一些参考资料。
  • 参考什么? mean 的属性(因为这就是问题所在)?最小二乘估计?
  • “k-means 只能在连续数值变量上可靠地工作”从哪里来。我已经将 k-means 用于离散变量并且效果很好。
  • 您是否将其与其他方法进行了比较? k-means 不会“崩溃”,但在此类数据上,ghe 结果通常不比 random 凸分区好。如果您将 k-means 聚类和随机凸分区呈现给用户并进行 A/B 测试,那么随机也一样好。
猜你喜欢
  • 2016-12-16
  • 2017-03-30
  • 2016-03-10
  • 2017-12-09
  • 1970-01-01
  • 2015-01-16
  • 2017-11-30
  • 2013-02-01
相关资源
最近更新 更多