将新实例添加到集群器答案

【问题标题】：Adding new instances to clusterer将新实例添加到集群器
【发布时间】：2015-07-31 16:41:48
【问题描述】：

我目前正在使用 Weka 的 SimpleKMeans 集群器。我想将新的看不见的实例集群到预先存在的集群或新集群中。

如何将不可见的实例聚集到一个集群中？

【问题讨论】：

【解决方案1】：

我不确定我是否理解这个问题，但如果您正在寻找可以捕获比预定数量更多（或更少）的聚类的方法，我建议您研究非参数聚类算法，例如 Dirichlet Process混合。

【讨论】：

对不起，如果我不清楚。我使用数据集初始化我的集群以生成 k 个集群。在此之后，我想在每个新文档和每个集群之间执行余弦相似度。如果相似度低于阈值，则创建一个集群，否则添加到预先存在的集群。
是的，这听起来就像一个非参数聚类问题。研究 Dirichlet 过程混合物，它应该是最容易遵循的。 en.wikipedia.org/wiki/Dirichlet_process

【解决方案2】：

添加新实例的明显方法是使用原始“kmeans”出版物中的 MacQueen k-means 方法。

我认为 Weka 不能开箱即用，因此您必须自己编写代码。但这很容易！

【讨论】：