【发布时间】:2014-03-23 20:06:56
【问题描述】:
您好在这里完成新手问题:我有一个由两列组成的表格。第一列属于“箱”,由果蝇居住的地方编码。第二列是 0 或 1,分别是中性和真正像糖。我有两个问题?
1) 如果我怀疑只有一个变量,那就是他们居住的地方决定了他们是否喜欢糖。有没有办法让我的计算机只分成 2 个集群?所有喜欢糖和中性的垃圾箱。这样我们就可以做进一步的实验来确定这些垃圾箱是什么。
2) 自动确定有多少集群可能会导致这种行为?例如,可能有 4 个变量(4 个集群)可以确定糖偏好的结果。
抱歉,如果这是微不足道的。下表列出。谢谢!
Bin sugar
1 1
1 1
1 0
1 0
2 1
2 0
2 0
3 1
3 0
3 1
3 1
4 1
4 1
4 1
5 1
5 0
5 1
6 0
6 0
6 0
7 0
7 1
7 1
8 1
8 0
8 1
9 1
9 0
9 0
9 0
10 0
10 0
10 0
11 1
11 1
11 1
12 0
12 0
12 0
12 0
13 0
13 0
13 1
13 0
13 0
14 0
14 0
14 0
14 0
15 1
15 0
15 0
16 1
16 1
17 1
17 1
18 0
18 1
18 1
17 1
19 1
20 1
20 0
20 0
20 1
21 0
21 0
21 1
21 0
22 1
22 0
22 1
22 1
23 1
23 1
24 1
24 0
25 0
25 1
25 0
26 1
26 1
27 1
27 1
【问题讨论】:
-
1) 问题不清楚,如果你问是否可以分类,给定一个垃圾箱,一只喜欢糖的苍蝇,答案是肯定的。 2)再次不清楚,您是否要根据“喜欢糖”列查找垃圾箱集群?然后答案是肯定的。你的问题能再清楚一点吗?
-
@mp85 抱歉措辞不好。所以对于1)我想要的是有两个集群;每个代表中性或类似糖。在每个集群中都应该有一个 bin 列表。如果我将所有说中性的垃圾箱都设置为 1,并且将所有像糖一样的垃圾箱设置为零,那么当我运行回归时,它应该会给我最强的预测。其次,如果计算机可以告诉我最佳集群是什么以及在这些集群中哪些垃圾箱属于它,那就太好了。当我进行与上述类似的回归时,应该给出最强的关系。
-
不要将聚类分析视为“学习”某些变量。然后你在做分类,而不是结构发现。对于聚类分析,请考虑定义结构。
标签: machine-learning artificial-intelligence cluster-computing cluster-analysis supervised-learning