【发布时间】:2014-11-01 14:43:08
【问题描述】:
我知道 Mahout 用于批处理,但我很感兴趣是否可以使用它的 KMeans 以及如何对单个点进行聚类?
假设我们有以下情况
- 全局聚类,对所有数据执行批处理并给出质心作为结果
- 一个点聚类,它使用来自全局聚类的质心,将该点分配给一个聚类 - 它不需要重新计算聚类质心 - 只需将该点分配给现有聚类
我可以使用 Mahout 执行此操作,还是必须自己实现它?我认为将迭代次数设置为 1,并以这种方式分配点,但问题是,KMeans 重新计算集群质心,如果该新点是异常值,它会从中创建一个新集群。我不想要那个,我实际上想要到最近质心的距离。
目前看来,用KMeans来做这个不是很合适,但应该单独实现……对吗?
谢谢
【问题讨论】:
标签: cluster-analysis mahout k-means