【发布时间】:2016-12-29 14:25:57
【问题描述】:
我对“以狄利克雷过程作为聚类数量的先验分布的无限混合模型”的理解是,聚类数量由数据决定,因为它们收敛到一定数量的聚类。
这个R Implementationhttps://github.com/jacobian1980/ecostates以这种方式决定集群的数量。虽然 R implementation 使用 Gibbs 采样器,但我不确定这是否会影响这一点。
让我感到困惑的是n_components 参数。 n_components: int, default 1 :
Number of mixture components. 如果分量的个数是由数据和狄利克雷过程决定的,那么这个参数是什么?
最终,我想得到:
(1) 每个样本的聚类分配;
(2) 每个簇的概率向量;和
(3) 每个样本的似然/对数似然。
看起来 (1) 是 predict 方法,(3) 是 score 方法。但是,(1) 的输出完全取决于n_components 超参数。
如果这是一个幼稚的问题,我深表歉意,我对贝叶斯编程非常陌生,并注意到 Scikit-learn 中有 Dirichlet Process 我想尝试一下。
这是文档: http://scikit-learn.org/stable/modules/generated/sklearn.mixture.DPGMM.html#sklearn.mixture.DPGMM
这是一个使用示例: http://scikit-learn.org/stable/auto_examples/mixture/plot_gmm.html
这是我的幼稚用法:
from sklearn.mixture import DPGMM
X = pd.read_table("Data/processed/data.tsv", sep="\t", index_col=0)
Mod_dpgmm = DPGMM(n_components=3)
Mod_dpgmm.fit(X)
【问题讨论】:
-
不太了解这种模型,但是在doco中,他们称
n_components为“截断参数”,所以我猜组件的数量是由数据决定的,但是你必须指定一个上限。 -
哦,这是一个上限?我尝试添加我拥有的最大样本数(42),最终得到了 42 个集群。我认为这可能会迫使他们进入这么多的集群。当我使用上面列出的 R 实现进行 2000 次迭代的 Gibbs 采样时,我得到了 3 个集群。
-
不确定,也许可以试试
convariance_type、alpha等其他参数? -
@maxymoo 我今天要搞砸它,让你知道。感谢您的建议。
标签: python machine-learning statistics scikit-learn bayesian