使用 R 进行市场篮子分析的逆答案

【问题标题】：inverse of market basket analysis with R使用 R 进行市场篮子分析的逆
【发布时间】：2016-12-19 21:53:47
【问题描述】：

我想分析一下：在购物篮分析中哪些项目不顺利。基本上找出哪个项目一起没有出队列。我有一种情况，由于属性的各种组合，记录（包含 13 个属性/列）不完整。例如： a1,a2 .... a13 。以上所有属性可能有也可能没有值。但是任何没有值的属性都会导致记录不完整

在这种情况下，我需要查看哪些不完整记录的组合主要出现在我的记录集中。了解这种模式将有助于我的团队对最需要关注的记录进行优先排序。我看到 Apriori 算法只采用可用的值，但我需要分析未发生的组合。我确信这个问题过去应该已经解决了，但我在论坛中没有看到任何提示。有没有人有过这样的经历？还是您建议我应该使用任何其他算法？我正在使用 R 进行此分析。总记录：218k

【问题讨论】：

如果您需要帮助为您的数据选择合适的统计分析方法，那么您应该将您的问题发布到Cross Validated 或Data Science。这实际上不是一个特定的编程问题。您想使用 R 的事实与选择正确的数据分析方法无关。

标签： r analysis cross-validation apriori data-science

【解决方案1】：

谢谢，这个答案有帮助。我需要分析每笔交易中的所有 null 项目，并且我需要查看所有交易中哪个 null 组合出现最多。我尝试用常量替换我的所有空值。对先验算法进行了一些调整，以将这些常量设为 rhs 。但我不明白，FP 增长算法对此有何帮助？你能解释一下吗？

【讨论】：

Apriori 和 FP-Growth 算法的目标相同：提取频繁项集和关联规则。较旧的 Apriori 算法这样做的速度较慢。它在处理过程中需要多次扫描数据集，而 FP-Growth 只需要总共两次扫描。（关键词：候选生成和FP-Growth树）

【解决方案2】：

如果我正确掌握了您所说的情况，您想获取一个数据集，其中一个案例的项目要么有值，要么没有值，关联规则与那些至少有一个项目的案例没有价值，然后只对这些没有价值的项目。为此目的是 Apriori 算法就好了。你甚至不需要反转它。解决方案就在数据集的格式中：只需去掉有值的项目，给没有值的项目一个值，比如相关项目的名称，例如12.然后，您的数据集仅包含至少一项没有价值的项目和没有价值的项目的案例，而且这些项目可以通过它们的值来识别，即它们的名称。现在，Apriori 算法可以从格式化数据集中提取频繁项集和随后的关联规则。关于是否应该使用其他算法来提取关联规则：是的。使用 FP-Growth。它比 Apriori 算法快。

【讨论】：