一、Aoriori原始算法:

频繁挖掘模式与关联规则

关联规则两个基本的指标(假设有事务A和事务B)

  1、支持度(suport):计算公式如下

    数据挖掘之关联规则Apriori算法

  2、置信度(confidence):

  数据挖掘之关联规则Apriori算法

关联规则的挖掘过程:

  1、设定最小支持度阈值,找出所有的频繁项集且每个出现的次数要大于等于最小支持度阈值。

  2、由频繁项集产生强关联规则:这些规则必须满足最小支持度和最小置信度。

先验性质:频繁项集的所有非空子集也一定是频繁的

Apriori算法的两大步骤:连接步,剪枝步。

  数据挖掘之关联规则Apriori算法

  举个例子:数据集具有9条事务数据

  数据挖掘之关联规则Apriori算法

  先设置最小支持度阈值为2;然后我们逐层找出有效的频繁项集

  首先扫描整个数据集共有5个独立的项集分别为[I1, I2, I3, I4, I5],然后对齐进行计数,查看是否满足阈值。

  数据挖掘之关联规则Apriori算法

  在集合L1 中过滤掉无效项集后,由 L1进行组合产生L2,在对L2 中的每个项集进行计数,过滤掉无效项集

  数据挖掘之关联规则Apriori算法

  有L2进行组合产生L3,再进行计数(此步骤以及后面的步骤(如果有的话))要考虑先验性质,降低运算消耗

     数据挖掘之关联规则Apriori算法

  备注:频繁项集L2 的组合按理说应该是 [[I1,I2,I3], [I1,I2,I5], [I1, I3,I5], [I2, I3, I4], [I2,I3,I5], [I2,I4,I5]],但是根据先验性质,后面四个项集存在子集不是频繁项集,也就是说子集计数小于2,具体如下

  数据挖掘之关联规则Apriori算法

  迭代到L(n-1) 就停止了。

二、提高 Aprioir算法的效率

    未完待续......

 

 

 

 

     

 

分类:

技术点:

相关文章: