【发布时间】:2017-03-07 10:06:06
【问题描述】:
我想对如下数据集进行 K 均值聚类
(OA,mobileNO,Text是csv的Header)
OA|mobileNO|文字
575756|918050173932|sekhar 添加了一张照片。请参阅https://fb.com/l/
RM-444555|91879225717|Dominos 买 1 比萨送 1
VM-OLAMNY|919160281882|在 OLA 出租车中添加了 rs.10
像上面一样,我有一个庞大的数据集,我如何对数据进行聚类并找到其中的隐藏模式。 (例如:哪个 OA 正在发送 cab 相关消息,哪个 OA 正在发送 fb 通知等)
我必须根据他们发送的文本来获取 OA 集群
集群 1:出租车相关的 OA 集群 2:fb 通知等
K-means 聚类仅适用于数值数据吗?
【问题讨论】:
-
过于宽泛,请具体说明您的问题,到目前为止您尝试了什么?
-
试图通过仅获取文本文件来进行聚类。通过标记化、去除停用词和计算 TF-IDF 权重。我们如何使用 TF-IDF 权重作为 KMeans 的输入。在 spark 文档中解释了数字数据的聚类。这里我有所有文本字段。
-
kmeans 仅适用于数字向量,全球所有可用框架都是这种情况
标签: apache-spark machine-learning data-mining k-means text-classification