【发布时间】:2021-01-13 20:24:16
【问题描述】:
一台机器提供在 pandas 数据框中提供的故障代码。 id识别机器,code为故障码:
df = pd.DataFrame({
"id": [1,1,1,1,1,2,2,2,2,3,3,3,3,3,3,4],
"code": [1,2,5,8,9,2,3,5,6,1,2,3,4,5,6,7],
})
读取示例:机器 1 生成 5 个代码:1、2、5、8 和 9。
我想找出哪些代码组合在所有机器中最常见。该示例的结果将类似于[2](3x)、[2,5](3x)、[3,5](2x) 等等。
我怎样才能做到这一点?由于数据很多,我正在寻找一个有效的解决方案。
这里有另外两种表示数据的方法(以防计算更容易):
pd.crosstab(df.id, df.code)
df.groupby("id")["code"].apply(list)
【问题讨论】:
-
订购重要吗?
[2, 5]与[5,2]不同吗? -
排序无关紧要;
[2,5]等于[5,2]。
标签: python pandas combinations