数据挖掘：频繁项集答案

【问题标题】：data mining: Frequent Item sets数据挖掘：频繁项集
【发布时间】：2014-01-25 11:48:14
【问题描述】：

当在考试问题中被要求查找所有频繁项集时，您给出的答案是否只是最后一次计算出来的集合，还是有必要在此之前给出所有答案。

例如说如果我得到的最后一个结果是 (A,B,D) 那么是我的频繁项目集还是我需要包括在此之前找到的所有也满足 minSup 的项目，例如(A,B) (A,D) (B,D) 等

【问题讨论】：

“考试题”是什么意思，这道题与编程有什么关系？
与编程无关，但与数据挖掘有关
您的问题更适合交叉验证：stats.stackexchange.com
谢谢，我会在这里重新提问！

标签： data-mining

【解决方案1】：

我了解到您在问一个频繁项集是否满足最小支持阈值，该项集的子集是否也支持最小支持？答案是是子集也满足最低支持阈值。

这里的逻辑是自下而上的方法。大小为 2 的候选项集由大小为 1 的频繁项集生成。大小为 3 的候选项集是由大小为 2 的频繁项集生成的。

对于一个示例数据集：

第 1 行：A B C D E
第 2 行：A C D
第 3 行：B C
第 4 行：A C D E
第 5 行：A D E
第 6 行：A B C D
第 7 行：A B C
第 8 行：A C
第 9 行：B C D
第 10 行：B D E

首先生成大小为 1 的候选项集。它们是：A、B、C、D、E。现在计算每个候选人的支持度。 A=7，B=6，C=8，D=7，E=4。现在，如果 minSup 值为 5，则修剪 E。如果 minSup 值为 3，则所有尺寸为 1 的候选者都被评估为频繁。

生成了第二个大小为 2 的候选项集。方法是叉积大小为 1 的频繁项集。因此生成了 A B、A C、A D、A E、B C、B D、B E、C D、C E、D E 大小 2 个候选项集。在此之后，计算每个候选者的支持值。对 A B 的支持为 3，因为第 1 行、第 6 行和第 7 行包含此模式。但 B E 候选仅存在于第 1 行和第 10 行，如果 minSup 值为 3，则该候选被修剪。

因为使用了这个逻辑，如果上项集是频繁的，那么子集也应该是频繁的。否则无法生成上项集。

我希望我能解释一下自己。

【讨论】：