【发布时间】:2014-11-17 00:16:24
【问题描述】:
分组数据
我有一组项目,我想根据它们通常一起出现的方式将它们分成集群。例如,如果我有以下数据:
{a:1, b:1, c:0, d:0}
{a:1, b:1, c:0, d:0}
{a:1, b:1, c:1, d:0}
{a:0, b:0, c:1, d:1}
我们可以将 a 和 b 组合在一起,因为它们总是具有相同的值。 C 和 D 将各自位于各自的集群中,因此我们最终会得到 3 个可以 100% 准确表示此数据的集群。
此外,我想牺牲准确性来减少子组的数量。例如,通过上述数据集,我们可以将 A 和 B 分到一个没有准确度损失的集群中,将 C 和 D 分到一个准确度损失较小的集群中。
基本上,我想将数据分组到给定数量的最佳集群中,并能够通过这样做来计算准确性损失。
初步想法
几年前我参加了机器学习课程,所以我知道这很危险,但我不知道从哪里开始。 Some form of clustering,比如混合模型,或者层次聚类似乎是正确的方向?
【问题讨论】:
-
你可能会发现这个社区有点用stats.stackexchange.com
-
@Leo 是的,我认为那里看起来更相关。我应该重新发布它吗?
-
我相信你会在那里找到答案。 Stackoverflow 通常更适合特定的编程问题。
-
认为您正在寻找主成分分析。您可以用多种语言轻松完成此操作
标签: machine-learning cluster-analysis