【发布时间】:2013-04-21 04:42:24
【问题描述】:
我的目标是根据单词与文本文档语料库的相似程度对单词进行聚类。我计算了每对单词之间的 Jaccard 相似度。换句话说,我有一个稀疏距离矩阵可用。谁能指出任何将距离矩阵作为输入的聚类算法(可能还有它在 Python 中的库)?我事先也不知道集群的数量。我只想对这些单词进行聚类,并获得哪些单词被聚类在一起。
【问题讨论】:
-
看看code.google.com/p/em-python和“en.wikipedia.org/wiki/Expectation–maximization_algorithm”
-
@Moj 对不起...我似乎无法弄清楚您提到的链接中包含的信息与此处的相关性
-
(EM) 算法是一种迭代方法,用于在统计模型中找到参数的最大似然或最大后验 (MAP) 估计,其中模型依赖于未观察到的潜在变量。 EM 迭代在执行期望 (E) 步骤之间交替,该步骤为使用当前估计的对数似然评估的期望创建一个函数。我想这适合您的目标,因为事先也不知道集群的数量。这是该算法的两个库(或实现)。
-
@Moj 我希望有一些类似于 k-means 或层次聚类的东西......我知道这些需要事先知道聚类的数量......但我希望有办法找出最佳聚类数
标签: python cluster-computing scikit-learn hierarchical-clustering