【发布时间】:2013-01-02 02:13:10
【问题描述】:
我有自己的基于 java 的集群实现 (knn)。但是我面临可扩展性问题。我不打算使用 Mahout,因为我的要求非常简单,而且 mahout 需要大量工作。我正在寻找基于 java 的 Canopy 集群实现,我可以将其插入我的算法并进行并行处理。
基于 Mahout 的 Canopy 库与向量和索引相结合,不适用于纯字符串。如果您知道我可以使用简单库在字符串上使用树冠聚类的方式,它将解决我的问题。
我的要求是将字符串列表(比如 10K)传递给 Canopy 聚类算法,它应该返回基于 T1 和 T2 的子列表。
【问题讨论】:
标签: machine-learning cluster-analysis