【发布时间】:2014-08-27 04:05:57
【问题描述】:
我有需要聚类的 4 维数据,以便为每个聚类构建最小体积边界椭球。我不想有单点集群,或者至少,尽可能少的单点集群,因为我们不能用单点建立一个椭圆形置信区域。在我的问题中,没有预先给出集群的数量。所以我使用 Scikit-learn 的 Affinity Propagation - http://scikit-learn.org/stable/modules/clustering.html#affinity-propagation 来估计聚类的数量并从数据中执行聚类。但是这种方法给了我这么多单点集群。您能否就如何解决此问题提供见解?
P.S:为了给您更多信息,我正在研究用于贝叶斯证据计算的椭圆嵌套采样。
【问题讨论】:
-
也许先去除异常值?
-
删除异常值肯定会有所帮助。您甚至可能要考虑使用高斯混合模型。分量高斯的个数可以根据AIC或BIC准则来选择。
标签: scipy cluster-analysis data-mining scikit-learn mcmc