【问题标题】:Any method to optimize the algorithm of Apriori for Data Mining?有什么方法可以优化数据挖掘的 Apriori 算法?
【发布时间】:2011-04-29 14:21:59
【问题描述】:

我正在挖掘一些数据。 我想节省时间。 那么有什么方法吗?

【问题讨论】:

    标签: apriori


    【解决方案1】:

    如果您正在挖掘数据并且想要节省时间,您应该考虑使用 FPGrowth 而不是尝试优化 Apriori。

    即使你优化了 Apriori,它也不会像 FPGrowth 的良好实现那样快。

    Apriori 很重要,因为它是频繁项集挖掘和关联挖掘的第一个算法。但是现在有一些更有效的算法。

    【讨论】:

      【解决方案2】:
      1. 使用正确的编程语言(例如:使用 VB 可能是灾难性的)

      2. 制定您需要的信息并相应地编写程序代码

      3. 根据需要减小数据库大小或准备数据库

      4. 超级计算机(是的,硬件确实很重要,开玩笑说你需要一台好的计算机,尤其是处理非常大的数据集)

      5. 通过以下方式改进 Apriori 算法本身:

        •基于散列的项集计数:对应的散列桶计数低于阈值的k项集不可能是频繁的。
        •事务减少:不包含任何频繁k项的事务在后续扫描中无用。
        •分区:任何可能在DB中频繁出现的项集必须至少在DB的一个分区中频繁出现。
        •抽样:对给定数据的子集进行挖掘,降低支持阈值+确定完整性的方法。
        •动态项集计数:仅当估计其所有子集都为频繁时才添加新的候选项集。

      【讨论】:

        猜你喜欢
        • 2015-03-10
        • 2019-04-24
        • 2018-06-25
        • 2016-03-03
        • 1970-01-01
        • 1970-01-01
        • 2017-05-12
        • 2011-08-25
        • 2011-01-13
        相关资源
        最近更新 更多