【发布时间】:2011-10-26 05:28:58
【问题描述】:
我是这个领域以及术语的新手,所以如果我在某个地方出错,请随时提出建议。我有两个这样的数据集:
数据集 1:
A B C 0 E
A 0 C 0 0
A 0 C D E
A 0 C 0 E
我对此的解释是在某个时间点,(A,B,C,E) 一起发生,(A,C)、(A,C,D,E) 等也是如此。
数据集 2:
5A 1B 5C 0 2E
4A 0 5C 0 0
2A 0 1C 4D 4E
3A 0 4C 0 3E
我的解释是在某个时间点,A 出现 5 次,B 出现 1 次,C 出现 5 次,E 出现 2 次,依此类推。
我正在尝试找出哪些项目一起发生,如果可能的话,还要找出原因和影响。为此,我不明白如何使用这两个数据集(或者如果一个就足够了)。最好有一个很好的教程,但我的主要问题是使用哪个数据集以及如何继续(i)构建频繁项集和(ii)在它们之间建立关联规则。
有人可以给我指出一个实用的教程/示例(最好用 Python),或者至少简要解释一下如何解决这个问题?
【问题讨论】:
标签: python machine-learning data-mining