【发布时间】:2011-03-04 07:31:21
【问题描述】:
我是数据挖掘的新手,对关联规则和频繁项挖掘感到困惑。对我来说,我认为两者都是一样的,但我需要这个论坛专家的意见
我的问题是
关联规则挖掘和频繁项集挖掘有什么区别? 谢谢
【问题讨论】:
标签: data-mining
我是数据挖掘的新手,对关联规则和频繁项挖掘感到困惑。对我来说,我认为两者都是一样的,但我需要这个论坛专家的意见
我的问题是
关联规则挖掘和频繁项集挖掘有什么区别? 谢谢
【问题讨论】:
标签: data-mining
关联规则挖掘用于发现数据中的模式。它找到一起出现并相关的特征。
例如,购买尿布的人可能会购买婴儿爽身粉。或者我们可以将声明改写为:如果(人们购买尿布),那么(他们购买婴儿爽身粉)。注意 if, then 规则。这并不一定意味着如果人们购买婴儿爽身粉,他们就会购买尿布。一般来说,我们可以说,如果条件 A 趋向于 B,并不一定意味着 B 趋向于 A。
频繁项集挖掘用于寻找数据中的常见项集。它可以从给定的事务数据集生成关联规则。
如果有 2 件商品 X 和 Y 经常购买,那么最好将它们放在商店中,或者在购买另一件商品时为一件商品提供一些折扣优惠。这确实可以增加销售额。例如,很可能会发现,如果客户购买牛奶和面包,他/她也会购买黄油。 所以关联规则是['milk]^['bread']=>['butter']。因此,如果客户购买牛奶和面包,卖家可以建议客户购买黄油。
【讨论】:
通过使用关联规则挖掘,我们将获得给定数据集中出现的频繁项集。它还提供了不同类型的算法来挖掘频繁项集,但它以不同的方式完成,即水平或垂直格式。 Apriori算法采用水平格式挖掘频繁项集,eclat算法采用垂直格式挖掘频繁数据集。
【讨论】:
频繁项集挖掘的输入是:
输出是:
关联规则挖掘的输入为:
输出是:
现在项集和关联规则挖掘之间的关系是,使用频繁项集生成规则非常有效(有关此思想的更多详细信息,请参见 Agrawal 1993 的论文)。所以关联规则挖掘将分为两个步骤: - 挖掘频繁项集 - 使用频繁项集生成所有有效的关联规则。
【讨论】:
频繁项集挖掘是关联规则挖掘的第一步。
一旦你生成了所有的频繁项集,你继续遍历它们,一个接一个地枚举所有可能的关联规则,计算它们的置信度,最后,如果置信度>minConfidence,你输出那个规则。
【讨论】:
频繁项集挖掘是关联规则挖掘的一个步骤。对数据应用Apriori、FPGrowth等频繁项集挖掘算法后,将得到频繁项集。从这些 发现频繁项集,生成关联规则(一般通过子集生成)。
【讨论】:
关联规则类似于“A,B → C”,这意味着当 A 和 B 出现时,C 往往会出现。项集只是诸如“A,B,C”之类的集合,如果其项倾向于同时出现,则它是频繁的。 The usual way寻找关联规则就是找到所有的频繁项集,然后将它们后处理成规则。
【讨论】: