Python：如何找到最频繁的元素组合？答案

【问题标题】：Python: How to find most frequent combination of elements?Python：如何找到最频繁的元素组合？
【发布时间】：2021-01-13 20:24:16
【问题描述】：

一台机器提供在 pandas 数据框中提供的故障代码。 id识别机器，code为故障码：

df = pd.DataFrame({
    "id": [1,1,1,1,1,2,2,2,2,3,3,3,3,3,3,4],
    "code": [1,2,5,8,9,2,3,5,6,1,2,3,4,5,6,7],
})

读取示例：机器 1 生成 5 个代码：1、2、5、8 和 9。

我想找出哪些代码组合在所有机器中最常见。该示例的结果将类似于[2](3x)、[2,5](3x)、[3,5](2x) 等等。

我怎样才能做到这一点？由于数据很多，我正在寻找一个有效的解决方案。

这里有另外两种表示数据的方法（以防计算更容易）：

pd.crosstab(df.id, df.code)

df.groupby("id")["code"].apply(list)

【问题讨论】：

订购重要吗？ [2, 5] 与 [5,2] 不同吗？
排序无关紧要； [2,5] 等于 [5,2]。

标签： python pandas combinations

【解决方案1】：

使用自定义函数all_subsets，然后将值平展Series.explode，最后使用Series.value_counts：

from itertools import chain, combinations

#https://stackoverflow.com/a/5898031
#only converted to list and removed empty tuples by range(1,...
def all_subsets(ss):
    return list(chain(*map(lambda x: combinations(ss, x), range(1, len(ss)+1))))

s = df.groupby('id')['code'].apply(all_subsets).explode().value_counts()
print (s)
(2,)            3
(2, 5)          3
(5,)            3
(1, 2)          2
(3, 6)          2
               ..
(1, 5, 8)       1
(9,)            1
(1, 3, 4, 6)    1
(5, 8, 9)       1
(4, 6)          1

【讨论】：

太好了，谢谢！您介意详细说明一下您的代码吗？
@Julian - 我为元组列表创建了所有可能的组组合，因此为元组列表添加了explode，以便可能按value_counts计算它