【问题标题】：what is the difference between Association rule mining & frequent itemset mining关联规则挖掘和频繁项集挖掘有什么区别
【发布时间】：2011-03-04 07:31:21
【问题描述】：

我是数据挖掘的新手，对关联规则和频繁项挖掘感到困惑。对我来说，我认为两者都是一样的，但我需要这个论坛专家的意见

我的问题是

关联规则挖掘和频繁项集挖掘有什么区别？谢谢

【问题讨论】：

标签： data-mining

【解决方案1】：

关联规则挖掘：

关联规则挖掘用于发现数据中的模式。它找到一起出现并相关的特征。

示例：

例如，购买尿布的人可能会购买婴儿爽身粉。或者我们可以将声明改写为：如果（人们购买尿布），那么（他们购买婴儿爽身粉）。注意 if, then 规则。这并不一定意味着如果人们购买婴儿爽身粉，他们就会购买尿布。一般来说，我们可以说，如果条件 A 趋向于 B，并不一定意味着 B 趋向于 A。

频繁项集挖掘：

频繁项集挖掘用于寻找数据中的常见项集。它可以从给定的事务数据集生成关联规则。

示例：

如果有 2 件商品 X 和 Y 经常购买，那么最好将它们放在商店中，或者在购买另一件商品时为一件商品提供一些折扣优惠。这确实可以增加销售额。例如，很可能会发现，如果客户购买牛奶和面包，他/她也会购买黄油。所以关联规则是['milk]^['bread']=>['butter']。因此，如果客户购买牛奶和面包，卖家可以建议客户购买黄油。

【讨论】：

【解决方案2】：

通过使用关联规则挖掘，我们将获得给定数据集中出现的频繁项集。它还提供了不同类型的算法来挖掘频繁项集，但它以不同的方式完成，即水平或垂直格式。 Apriori算法采用水平格式挖掘频繁项集，eclat算法采用垂直格式挖掘频繁数据集。

【讨论】：

【解决方案3】：

频繁项集挖掘的输入是：

交易数据库
最低支持阈值minsup

输出是：

至少出现在 minsup 个事务中的所有项集的集合。项集只是一组无序的项。

关联规则挖掘的输入为：

交易数据库
最低支持阈值minsup
最小置信度阈值minconf

输出是：

所有有效关联规则的集合。关联规则 X-->Y 是两个项集 X 和 Y 之间的关系，使得 X 和 Y 不相交且不为空。有效规则是支持度高于或等于 minsup 且置信度高于或等于 minconf 的规则。支持定义为 sup(x-->Y) = sup (X U Y) / (事务数)。置信度定义为 conf(x-->Y) = sup (X U Y) / sup (X)。

现在项集和关联规则挖掘之间的关系是，使用频繁项集生成规则非常有效（有关此思想的更多详细信息，请参见 Agrawal 1993 的论文）。所以关联规则挖掘将分为两个步骤： - 挖掘频繁项集 - 使用频繁项集生成所有有效的关联规则。

【讨论】：

【解决方案4】：

频繁项集挖掘是关联规则挖掘的第一步。一旦你生成了所有的频繁项集，你继续遍历它们，一个接一个地枚举所有可能的关联规则，计算它们的置信度，最后，如果置信度>minConfidence，你输出那个规则。

【讨论】：

【解决方案5】：

频繁项集挖掘是关联规则挖掘的一个步骤。对数据应用Apriori、FPGrowth等频繁项集挖掘算法后，将得到频繁项集。从这些发现频繁项集，生成关联规则（一般通过子集生成）。

【讨论】：

【解决方案6】：

关联规则类似于“A,B → C”，这意味着当 A 和 B 出现时，C 往往会出现。项集只是诸如“A,B,C”之类的集合，如果其项倾向于同时出现，则它是频繁的。 The usual way寻找关联规则就是找到所有的频繁项集，然后将它们后处理成规则。

【讨论】：