【发布时间】:2014-02-11 01:28:00
【问题描述】:
我想对半监督(约束)聚类进行一些实验,特别是在以实例级成对约束(必须链接或不能链接约束)形式提供背景知识的情况下。我想知道是否有任何实现半监督聚类的优秀开源包?我尝试查看 PyBrain、mlpy、scikit 和 orange,但找不到任何受约束的聚类算法。特别是,我对约束 K-Means 或基于约束密度的聚类算法(如 C-DBSCAN)感兴趣。 首选 Matlab、Python、Java 或 C++ 中的包,但不必限于这些语言。
【问题讨论】:
-
你可能想看看 ELKI。它有大量的聚类算法,但我不记得在那里看到过约束聚类。你有这方面的非合成数据集吗?我总觉得这是一个纯学术的东西。 C-DBSCAN 可能很容易在 ELKI“GeneralizedDBSCAN”之上实现。
-
我将研究 ELKI 代码,但乍一看表明我必须在“GeneralizedDBSCAN”类之上构建 C-DBSCAN。你是对的,我没有任何非合成数据集。这纯粹是出于学术兴趣。 :)
-
即使是出于学术兴趣,也应该适用于真实数据。已经有太多的算法只适用于合成高斯分布,可能是因为这就是作者曾经研究过的所有......
标签: cluster-analysis k-means pybrain dbscan