【发布时间】:2021-05-09 14:46:41
【问题描述】:
我有一个这个数据集作为样本:
df = pd.DataFrame({'CL1':['A B C','C A N']},
columns=['CL1','CL2','CL3','CL4'])
CL1 CL2 CL3 CL4
0 A B C NaN NaN NaN
1 C A N NaN NaN NaN
我的目标:通过以下步骤在数据框中找到最多重复的单词组合。
-
- 用 (,) 作为分隔符分隔每个值,并添加到
CL2列中:
- 用 (,) 作为分隔符分隔每个值,并添加到
CL1 CL2 CL3 CL4
0 'A B C' 'A,B,C' NaN NaN
1 'C A N' 'C,A,N' NaN NaN
-
-
CL2列CL3中的值分隔:
-
CL1 CL2 CL3 CL4
0 'A B C' 'A,B,C' 'A','B','C' NaN
1 'C A N' 'C,A,N' 'C','A','N' NaN
-
-
CL4列的并集(来自统计的集合论)
-
CL1 CL2 CL3 CL4
0 'A B C' 'A,B,C' 'A','B','C' [ [A],[B],[C],[A,B],[A,C],[B,C],[A,B,C] ]
1 'C A N' 'C,A,N' 'C','A','N' [ [C],[A],[N],[A,C],[C,N],[A,N],[C,A,N] ]
-
- 在新数据框中的新列
CL5中查找列CL4的每个值的重复并添加到Count:
- 在新数据框中的新列
CL5 Count
0 [A] 2
1 [B] 1
2 [C] 2
3 [D] 1
4 [N] 1
5 [A,B] 1
etc..
【问题讨论】:
-
看来你知道你想要什么。如您所想,这是一个多步骤的过程。你做了什么来到达那里? minimal reproducible example?你被困在哪里了?
标签: python pandas dataframe statistics