【问题标题】:data mining: Frequent Item sets数据挖掘:频繁项集
【发布时间】:2014-01-25 11:48:14
【问题描述】:

当在考试问题中被要求查找所有频繁项集时,您给出的答案是否只是最后一次计算出来的集合,还是有必要在此之前给出所有答案。

例如说如果我得到的最后一个结果是 (A,B,D) 那么是我的频繁项目集还是我需要包括在此之前找到的所有也满足 minSup 的项目,例如(A,B) (A,D) (B,D) 等

【问题讨论】:

  • “考试题”是什么意思,这道题与编程有什么关系?
  • 与编程无关,但与数据挖掘有关
  • 您的问题更适合交叉验证:stats.stackexchange.com
  • 谢谢,我会在这里重新提问!

标签: data-mining


【解决方案1】:

我了解到您在问一个频繁项集是否满足最小支持阈值,该项集的子集是否也支持最小支持?答案是子集也满足最低支持阈值。

这里的逻辑是自下而上的方法。大小为 2 的候选项集由大小为 1 的频繁项集生成。大小为 3 的候选项集是由大小为 2 的频繁项集生成的。

对于一个示例数据集:

  • 第 1 行:A B C D E
  • 第 2 行:A C D
  • 第 3 行:B C
  • 第 4 行:A C D E
  • 第 5 行:A D E
  • 第 6 行:A B C D
  • 第 7 行:A B C
  • 第 8 行:A C
  • 第 9 行:B C D
  • 第 10 行:B D E

首先生成大小为 1 的候选项集。它们是:A、B、C、D、E。现在计算每个候选人的支持度。 A=7,B=6,C=8,D=7,E=4。现在,如果 minSup 值为 5,则修剪 E。如果 minSup 值为 3,则所有尺寸为 1 的候选者都被评估为频繁。

生成了第二个大小为 2 的候选项集。方法是叉积大小为 1 的频繁项集。因此生成了 A B、A C、A D、A E、B C、B D、B E、C D、C E、D E 大小 2 个候选项集。在此之后,计算每个候选者的支持值。对 A B 的支持为 3,因为第 1 行、第 6 行和第 7 行包含此模式。但 B E 候选仅存在于第 1 行和第 10 行,如果 minSup 值为 3,则该候选被修剪。

因为使用了这个逻辑,如果上项集是频繁的,那么子集也应该是频繁的。否则无法生成上项集。

我希望我能解释一下自己。

【讨论】:

    猜你喜欢
    • 2014-02-11
    • 2018-11-06
    • 2011-03-04
    • 2011-10-26
    • 1970-01-01
    • 2011-02-24
    • 2018-05-07
    • 2016-05-02
    • 1970-01-01
    相关资源
    最近更新 更多