【问题标题】:Clustering techniques for Binary Data二进制数据的聚类技术
【发布时间】:2017-07-05 08:37:41
【问题描述】:

我想使用聚类技术进行二进制数据分析。我通过调查收集了数据,在调查中我要求用户从 94 个产品功能列表中准确选择 20 个功能。我的数据中的列代表 94 个产品功能,行代表参与者。我正在尝试根据他们选择的产品功能将相似的用户聚集在不同的用户组中。每个用户集群还应该告诉我与每个集群相关的产品功能。我正在使用一些开源集群工具,如 NCSS 和 JMP。我试图使用模糊聚类技术来实现我的目标,但不幸的是这些工具不处理二进制数据。您能否建议我哪种技术真正适合我的任务,以及我可以使用哪种在线工具对我的数据进行聚类分析?由于时间限制,我并不想自己编写代码,我只是在寻找一些具有所有可用功能的开源工具,我可以按原样使用。

【问题讨论】:

    标签: cluster-analysis hierarchical-clustering


    【解决方案1】:

    二进制数据的聚类并没有很好地定义。

    您应该首先尝试回答一个“简单”的问题:

    数学上什么是好的集群?

    不允许使用模糊的术语。接下来要回答的问题是:I) 集群 A 何时比集群 B 更好(即计算机如何计算质量),以及 ii) 如何有效地找到它。

    如果你不明白你在做什么只是通过调用随机函数你不会走得太远......

    另外,集群实际上是您正在寻找的吗?大多数时候使用二进制数据,例如频繁项集挖掘是更好的选择。

    【讨论】:

      猜你喜欢
      • 2013-07-27
      • 2012-07-10
      • 2016-09-06
      • 1970-01-01
      • 2020-10-30
      • 2020-10-10
      • 2018-09-01
      • 2017-07-27
      • 2011-01-22
      相关资源
      最近更新 更多