对数据挖掘的最低支持和最低信心答案

【问题标题】：Minimum support and minimum confidence in Data Mining对数据挖掘的最低支持和最低信心
【发布时间】：2014-10-08 22:34:08
【问题描述】：

我想知道最小支持度和最小置信度是否可以在挖掘关联规则中自动确定？如果是这样，任何指向资源的提示或指针都会很棒。

【问题讨论】：

显然最小支持度为 1，最小置信度为 0...
一般来说minsup和minconf定义在[0,1]区间内。但我认为这不是这里的问题。我认为他想知道算法是否可以自动将这些参数设置为一些可以找到他想要的模式的值。在 [0,1] 间隔中将 minsup 设置为 1 可能会错过很多模式，因为只会输出所有事务中出现的规则。

标签： data-mining apriori

【解决方案1】：

是的，有一些方法可以自动确定 minsup 和 minconf 阈值。

但首先，让我告诉你一点关于如何选择 minsup 和 minconf 参数。选择它们取决于您的数据。

为了最低支持，我在某些数据上使用了 80 %。对于其他一些数据，我使用 0.05 %。这一切都取决于数据集。通常，我从一个高值开始，然后减小这些值，直到找到一个能够生成足够模式的值。

分钟。信心，它更容易一些，因为它代表了您对规则的信心。所以通常，我使用 60 % 之类的东西，因为我对真正少于 60 % 时间的规则不感兴趣。但这也取决于数据。

在性能方面，当 minsup 越高时，您会发现模式越少，算法越快。对于 minconf，当它设置得更高时，模式会更少，但可能不会更快，因为许多算法不使用 minconf 来修剪搜索空间。所以很明显，设置这些参数也取决于你想要多少规则。

如果您不想使用 minsup 参数，可以使用 top-k 关联规则挖掘算法。在这种情况下，例如，您将指定 k=1000，算法将以给定的最小置信度发现 1000 个最常见的规则。我为关联规则挖掘设计了一种名为 TopKRules 的算法。您可以从SPMF open-source data mining library下载源代码，它提供了许多关联规则和模式挖掘算法的实现。

另一种自动设置 minsup 阈值的解决方案是使用数学函数根据您拥有的数据量来设置它。你可以看看我的blog post here 做例子。

其他一些作品试图找到设置 minsup 和 minconf 的解决方案。您可以在 Google Scholar 上找到它们。

【讨论】：