【问题标题】:assigning new observation to a cluster将新观察分配给集群
【发布时间】:2012-11-12 04:16:40
【问题描述】:

假设我在 Mahout 中有一个用户/项目特征矩阵,并且我已经导出了用户的对数似然相似性并确定了三个用户集群。现在我有一个带有一组项目(相同格式和相同项目集)的新用户,如何在不重新计算相似度矩阵和重新聚类过程的情况下为新用户分配这三个集群中的一个? 问题是如果我使用当前集群质心并计算对数似然相似度或任何距离度量,质心不再是二元的。如果我使用 k 中位数,它们就有可能全为零。解决这个问题的好方法是什么?您是否推荐使用任何模型基础聚类,特别是在 MAhout 中?

【问题讨论】:

    标签: data-mining cluster-analysis binary-data mahout


    【解决方案1】:

    如何为集群训练分类器?

    为避免出现零点,您可以改用 k-medoids。这里的关键区别在于,k-medoids 会从您的数据集中选择最中心的对象,因此它实际上与您的数据对象具有相同的稀疏性。

    由于我不使用 Mahout,我不知道 Mahout 是否提供此功能。据我所知,它的计算量比 k-means 或 k-median 要高得多。

    【讨论】:

      猜你喜欢
      • 2021-11-23
      • 1970-01-01
      • 2018-09-26
      • 1970-01-01
      • 2016-06-07
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多