自动学习集群答案

【问题标题】：Automatically learning clusters自动学习集群
【发布时间】：2014-03-23 20:06:56
【问题描述】：

您好在这里完成新手问题：我有一个由两列组成的表格。第一列属于“箱”，由果蝇居住的地方编码。第二列是 0 或 1，分别是中性和真正像糖。我有两个问题？

1) 如果我怀疑只有一个变量，那就是他们居住的地方决定了他们是否喜欢糖。有没有办法让我的计算机只分成 2 个集群？所有喜欢糖和中性的垃圾箱。这样我们就可以做进一步的实验来确定这些垃圾箱是什么。

2) 自动确定有多少集群可能会导致这种行为？例如，可能有 4 个变量（4 个集群）可以确定糖偏好的结果。

抱歉，如果这是微不足道的。下表列出。谢谢！

【问题讨论】：

1) 问题不清楚，如果你问是否可以分类，给定一个垃圾箱，一只喜欢糖的苍蝇，答案是肯定的。 2）再次不清楚，您是否要根据“喜欢糖”列查找垃圾箱集群？然后答案是肯定的。你的问题能再清楚一点吗？
@mp85 抱歉措辞不好。所以对于1）我想要的是有两个集群；每个代表中性或类似糖。在每个集群中都应该有一个 bin 列表。如果我将所有说中性的垃圾箱都设置为 1，并且将所有像糖一样的垃圾箱设置为零，那么当我运行回归时，它应该会给我最强的预测。其次，如果计算机可以告诉我最佳集群是什么以及在这些集群中哪些垃圾箱属于它，那就太好了。当我进行与上述类似的回归时，应该给出最强的关系。
不要将聚类分析视为“学习”某些变量。然后你在做分类，而不是结构发现。对于聚类分析，请考虑定义结构。

标签： machine-learning artificial-intelligence cluster-computing cluster-analysis supervised-learning

【解决方案1】：

好的，假设我理解您的意思，应该使用贝叶斯过滤解决问题 1) 的一种方法。假设事件 L 是“一只苍蝇喜欢糖”，事件 B 是“一只苍蝇在 B 箱中”。

所以你拥有的是：

number of flies = 84    
size of each bins = (eg size of bin 1: 4)

苍蝇喜欢糖的概率：

P(L) = flies that like sugar / total number of flies = 43/84

苍蝇不喜欢糖的概率：

P(notL) = 1 - P(L) = 41/84

苍蝇在给定箱中的概率：

P(B) = size of the bin / sum of the sizes of all bins = 4/84 (for bin 1)

苍蝇不在给定箱中的概率：

P(notB) = 1 - P(B) = 80/84 (for bin 1)

一只苍蝇喜欢糖的概率，知道糖在 B 箱里：

P(L|B) = flies that like sugar in a bin / size of the bin
(eg for bin 1 is 2/4 = 1/2)

一只苍蝇喜欢糖的概率，知道它不在 B 箱里：

P(L|notB) = (total flies that like sugar - flies that like sugar in the bin)/(size of bins - size of the bin)) = 41/80

您想知道一只喜欢糖的苍蝇在给定箱 B 中的概率，您可以通过以下方式获得：

P(B|L) = (P(L|B) * P(B)) / (P(L|B) * P(B) + P(L|notB) * P(notB))

如果您计算每个箱子的 P(B|L) 和 P(B|notL)，那么您就知道哪个箱子最有可能包含喜欢糖的苍蝇。然后你可以进一步研究这些垃圾箱。

希望我说清楚了，我的统计数据有点生疏，我什至不确定我是否正确地完成了所有操作。将其作为提示，为您指明解决问题的正确方向。

您可以参考here以获得更准确的推理和结果。

至于问题2）……我得再考虑一下。

【讨论】：

感谢它的巧妙利用——我认为它对我很有用。